タグ

ブックマーク / www.unixuser.org/~euske (1)

  • Webstemmer のしくみ

    back [English] 基的な原理 レイアウト分析ツール analyze.py 文を抽出する extract.py パターンファイルの構造 おわりに 基的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。 すべての記事には共通した (たかだか数種類の) レイアウトが使われている。 各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。 バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、 あるニュースサイトの同一レイアウトをもつページをまとめ、 それらのページ中で「変化していない部分」をさがします。 バナーやナビゲーション用のリンクなどはレイアウトが

    toruto
    toruto 2007/10/13
    ウェブページのレイアウト分析 本文抽出
  • 1