(閉じる)

タグ :

コンピュータ・IT 313 users このエントリーをはてなブックマークに追加

Webページの本文抽出 (nakatani @ cybozu labs)

Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードUTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはし... > このページを見る

最終更新時間: 2007年09月13日03時12分
▼ブログで紹介する

みんなのブックマーク 人気(0) 新着

このブックマーク一覧を非公開にするには?

はてなブックマークはオンラインでブックマークを管理・共有できる無料サービス。自宅、職場、外出先、どこからでも同じブックマークにアクセスできます。ユーザーはみんなでブックマークを共有して効率良く情報収集しています。あなたもはてなブックマークを始めてみませんか?

このエントリーを含むエントリー(26)