[B! グーグル][コーパス] Itisangoのブックマーク

Itisango id:Itisango

グーグルとコーパスに関するItisangoのブックマーク (1)

グーグルが日本語N-gramデータを公開 ― ＠IT
2007/11/01 グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語（例では“グーグル”）と、他の単語の結びつきを予測できる。 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。公開したのはグーグルがWebサイトから抽出した約200億文（約2550億単語）の日本語データから作成したN-gramデータ（1～7gram）。データは特定非営利活動法人言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグルは英語について同
Itisango 2007/11/02
自然言語処理

コーパス

n-gram

google

japanese

資料

グーグル

N-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx