タグ

nlpとsearchに関するKasabutaのブックマーク (3)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News

    かねてから「Googleキラー」と噂されていた米Powersetが9月17日、テストサイト「Powerset Labs」を限定公開した。 Powersetは独自技術とPARC(XEROXパロアルト研究所)からライセンスを受けた技術を組み合わせて、単語やフレーズではなく文章でWebを検索する自然言語検索エンジンを開発している。同社の技術は現行の検索エンジンとは異なり、「Webページのすべての文章を読んで、その意味を抽出し、セマンティックインデックスを構築する」という。 同社はこれまで技術を公開していなかったが、このほどユーザーが同社技術を利用して、フィードバックを提供できるコミュニティーとしてPowerset Labsを立ち上げた。現在は招待制となっており、電子メールアドレスを登録して待つ必要がある。

    Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News
  • 1