サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
www.gsk.or.jp
「拡張固有表現タグ付きコーパス」は、 国立国語研究所『現代日本語書き言葉均衡コーパス』(BCCWJ)のコアデータ(約2,000文書)および、「CD-毎日新聞’95データ集」の新聞記事(約8,000記事)に対し、 関根の拡張固有表現階層 -7.1.0- を人手付与したコーパスである。BCCWJでは、異なり約43,000(のべ約100,000)個、新聞記事では異なり約60,000(のべ約240,000)個の固有表現にタグ付けした。 本データは付加情報のみを提供し、テキスト自体は含まれていない。本データを利用するためには、それぞれ、 『現代日本語書き言葉均衡コーパス DVD版 』(BCCWJ)Ver1以降、「CD-毎日新聞’95データ集」を別途入手する必要がある。(テキストを含む完全なコーパスを復元するプログラムが付属するが、新聞記事については、Windowsには対応していない) なお、本言語資
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1~7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。
GSK公開言語資源配布可能言語資源 入手方法については、言語資源を入手したい方へ をご覧下さい。 また、会員種別や言語資源の利用の範囲等については、会員種別と利用種別の個人・団体についてをご覧ください。 データ GSK2024-B
こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。教育研究活動に限り利用可能である。詳細は、付属のマニュアルを参照のこと。
GSK会員限定無料配布言語資源。 会員は、年度中、会員限定無料配布言語資源の利用が一件目の場合に限り無料(ただし、送料は着払い)。 年度中、会員限定無料配布言語資源の利用が二件目以上にあたる会員は、5,250円(税込み、送料別)。非会員には配布しない。 公開が年度末であるため、2008年度のGSK会員の無料配布分としての利用申請を2009年4月30日まで受け付ける。
Web日本語Nグラム第1版 Copyright 2007 Google Inc. All Rights Reserved 1. 概要 「Web日本語Nグラム」は日本語の単語n-gramとその出現頻度をまとめた 大規模言語リソースです。統計翻訳、統計的言語モデル、音声認識等への応用が期待できます。 1.1 対象Webページ n-gramは一般に公開されているWebページでGoogleがクロールしたものから抽出されています。 ただし、閲覧に特別な権限が必要なページや一般に公開されていないページ、 metaタグにnorachive, noindex 等が指定されているページは対象に入っておりません。 原則として日本語のテキストを対象にしていますが、他の言語が混入している場合もあります。 以下、対象Webページ集合を単に「コーパス」と呼ぶ事があります。 1.2 対象We
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。
What's GSK 特定非営利活動法人 言語資源協会(GSK)は、平成15年6月に設立されました。 言語資源協会は、音声データ、レキシコン、テキストコーパス、ターミノロジー、各種言語処理ツール等の言語資源の流通を促進することにより、言語資源を必要とする音声・自然言語処理分野の学術・研究・産業の発展、さらには、言語学分野の研究の推進に貢献することを目的としています。 このため、言語資源保有者と言語資源利用者の双方にとって意義・メリットのある言語資源の流通の仕組み・サービスの提供を推進します。 また、対象を日本国内の言語資源に限定せず、将来的にはアジア地域に拡張することにより、音声・自然言語処理技術、言語研究への国際貢献を目指します。
このページを最初にブックマークしてみませんか?
『GSK | 特定非営利活動法人 言語資源協会』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く