[B! nlp][search] Kasabutaのブックマーク

Kasabuta id:Kasabuta

nlpとsearchに関するKasabutaのブックマーク (3)

Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
Kasabuta 2007/11/02
corpus

data

google

japanese

language

mecab

n-gram

nlp

research

search
リンク
Googleキラー始動？　自然言語検索のPowersetが限定公開 - ITmedia News
かねてから「Googleキラー」と噂されていた米Powersetが9月17日、テストサイト「Powerset Labs」を限定公開した。 Powersetは独自技術とPARC（XEROXパロアルト研究所）からライセンスを受けた技術を組み合わせて、単語やフレーズではなく文章でWebを検索する自然言語検索エンジンを開発している。同社の技術は現行の検索エンジンとは異なり、「Webページのすべての文章を読んで、その意味を抽出し、セマンティックインデックスを構築する」という。同社はこれまで技術を公開していなかったが、このほどユーザーが同社技術を利用して、フィードバックを提供できるコミュニティーとしてPowerset Labsを立ち上げた。現在は招待制となっており、電子メールアドレスを登録して待つ必要がある。
Kasabuta 2007/09/19
google

nlp

search

web

webサービス

検索

検索エンジン
リンク
1