タグ

nlpとwebに関するKasabutaのブックマーク (3)

  • 文章の特徴を分析して個人を特定するプログラム | WIRED VISION

    文章の特徴を分析して個人を特定するプログラム 2007年10月 3日 IT コメント: トラックバック (1) Noah Shachtman 2007年10月03日 Credit: Jupiter Images オンラインでは匿名だから、勝手なことを書きこんでもバレっこないとお思いの読者も多いだろう。だがやはり身許が特定される恐れはある。 アリゾナ大学人口知能研究所では、米連邦政府の資金援助を受けて、インターネット上の人々の動きを、その人の書き癖から追跡する方法を確立しようとしている。 全米科学財団(NSF)のプレスリリースによると、アリゾナ大学のきわめて野心的な『Dark Web』プロジェクトは、「テロリストが作成したすべてのウェブ・コンテンツを系統立てて収集、分析することを目的」としている。 『Arizona Daily Star』紙の記事によると、この「分析」には、「執筆者1人1人を

  • Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News

    かねてから「Googleキラー」と噂されていた米Powersetが9月17日、テストサイト「Powerset Labs」を限定公開した。 Powersetは独自技術とPARC(XEROXパロアルト研究所)からライセンスを受けた技術を組み合わせて、単語やフレーズではなく文章でWebを検索する自然言語検索エンジンを開発している。同社の技術は現行の検索エンジンとは異なり、「Webページのすべての文章を読んで、その意味を抽出し、セマンティックインデックスを構築する」という。 同社はこれまで技術を公開していなかったが、このほどユーザーが同社技術を利用して、フィードバックを提供できるコミュニティーとしてPowerset Labsを立ち上げた。現在は招待制となっており、電子メールアドレスを登録して待つ必要がある。

    Googleキラー始動? 自然言語検索のPowersetが限定公開 - ITmedia News
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • 1