タグ

nlpに関するKasabutaのブックマーク (7)

  • 文書比較(diff)アルゴリズム

    文書比較(diff)アルゴリズム 前のドキュメント 次のドキュメント ViViの文書比較(diff)機能で使用しているアルゴリズムについて解説する。 これらのアルゴリズムは Myers 氏らの論文によるもので、氏は筆者のためにわざわざ論文をWebサイトで入手可能な形式にしてくださった。この場を借りてお礼申し上げる。 オリジナル論文は以下のWebサイトから入手可能である。 http://www.cs.arizona.edu/people/gene [1] E.W.Myers, "An O(ND) Difference Algorithm and Its Variations", Algorithmica, 1 (1986), pp.251-266 [2] S. Wu, U. Manber, G. Myers and W. Miller, "An O(NP) Sequence Comparis

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 文章の特徴を分析して個人を特定するプログラム | WIRED VISION

    文章の特徴を分析して個人を特定するプログラム 2007年10月 3日 IT コメント: トラックバック (1) Noah Shachtman 2007年10月03日 Credit: Jupiter Images オンラインでは匿名だから、勝手なことを書きこんでもバレっこないとお思いの読者も多いだろう。だがやはり身許が特定される恐れはある。 アリゾナ大学人口知能研究所では、米連邦政府の資金援助を受けて、インターネット上の人々の動きを、その人の書き癖から追跡する方法を確立しようとしている。 全米科学財団(NSF)のプレスリリースによると、アリゾナ大学のきわめて野心的な『Dark Web』プロジェクトは、「テロリストが作成したすべてのウェブ・コンテンツを系統立てて収集、分析することを目的」としている。 『Arizona Daily Star』紙の記事によると、この「分析」には、「執筆者1人1人を

  • Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News

    かねてから「Googleキラー」と噂されていた米Powersetが9月17日、テストサイト「Powerset Labs」を限定公開した。 Powersetは独自技術とPARC(XEROXパロアルト研究所)からライセンスを受けた技術を組み合わせて、単語やフレーズではなく文章でWebを検索する自然言語検索エンジンを開発している。同社の技術は現行の検索エンジンとは異なり、「Webページのすべての文章を読んで、その意味を抽出し、セマンティックインデックスを構築する」という。 同社はこれまで技術を公開していなかったが、このほどユーザーが同社技術を利用して、フィードバックを提供できるコミュニティーとしてPowerset Labsを立ち上げた。現在は招待制となっており、電子メールアドレスを登録して待つ必要がある。

    Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • ワードサラダ技術について

    後半部分が重要で、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である ということです。 さて、実例です。たとえば次の文章を考えてみます。 「通信販売大手セシールは9日、生命保険の販売に格参入する方針を明らかにした。」 まず形態素解析するとこんな感じになります。 通信 名詞,サ変接続,*,*,*,*,通信,ツウシン,ツーシン 販売 名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ 大手 名詞,一般,*,*,*,*,大手,オオテ,オーテ セシール 名詞,固有名詞,組織,*,*,*,セシール,セシール,セシール は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9 名詞,数,*,*,*,*,9,キュウ,キュー 日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ 、 記号,読点,*,*,*,*,、,、,、 生命 名詞,一般,*,*,*,*,生命,セイメイ,セイメイ 保険 名詞,一般

  • 1