タグ

自然言語処理とGoogleに関するyogasaのブックマーク (3)

  • 「Google日本語入力」開発者が語る、その狙い

    Google法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。 同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。 エンジニアの情熱の成果 開発は、ソフトウェアエンジニアの工藤拓さんと

    「Google日本語入力」開発者が語る、その狙い
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 1