タグ

webに関するsky-yのブックマーク (22)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • Web検索結果のクラスタリング 2006年 オープンキャンパス

    2006/07/22 はじめに 近年、 Web上に存在する情報の増大により、ユーザの必要とする情報を絞り込むために、Web検索エンジンは必要不可欠なものとなっています。しかし、検索結果が数百件におよぶことは頻繁に起こります。このため、検索結果の概観を視覚化する研究が注目されています。 このページでは、Web文書の検索結果にクラスタリングの技術を適用することで、効率よく検索結果を閲覧・把握できるシステムを紹介します。 クラスタリングとは ここで言うクラスタリングとは、データの集合を、似ているもの同士が同じグループになるように分けることをいいます。複数のコンピュータを組み合わせて並列処理を行うこともクラスタリングといいますが、それとは別のものです(Wikipedia - クラスタリング)。 クラスタリング手法は、排他的に分割するものや、オーバーラップを許すもの、階層的なクラスタを作成するものな