タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

Googleとnlpに関するnoriotのブックマーク (3)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • グーグルが日本語N-gramデータを公開 ― @IT

    2007/11/01 グーグルは11月1日、大規模日語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では“グーグル”)と、他の単語の結びつきを予測できる。 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。 公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日語データから作成したN-gramデータ(1~7gram)。データは特定非営利活動法人 言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグル英語について同

  • 1