Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはし... > このページを見る
最終更新時間:
2007年09月13日03時12分
みんなのブックマーク 人気(0) 新着
- extractcontent.rb
- すげぇ!!!Webサイトの本文抽出モジュール公開しちゃってる!!!みんなに共有しとこ。
-
本文抽出
- 本文抽出
- Webページの本文抽出モジュール
- Ruby ライブラリ
- これも便利
- ruby Extractr
- 本文抽出モジュール
- 素晴らしいですっっっっw
- 本文抽出ライブラリ
- (import)
- blog
- テキスト長スコアリング、NGワード、特定構造除外、まとまったブロック同士比較
- 本文抽出
- 使いたい
- Web ページには(略)、とにかく本文以外の「ゴミ」がわんさかついているので、本文を抽出するというより「いかにゴミを取り除くか」に注力しています / セクションターゲット対応重要 ← お金の力は偉大
- 勉強になるなぁw
このエントリーを含むエントリー(26)
-
DOM Based Content Extraction via Text Densityのbindingを書いたよ - ... 8 users
-
yssk22/extractcontent - GitHub 2 users
-
PHP版 本文抽出ライブラリ HTML_ExtractContent を試した - わからん 2 users
-
[自然言語処理] - プログラマになりたい 3 users
-
npm モジュールを公開してみる - Web屋の人の日記 || WebJourney 開発ログ 8 users
-
[O] 第一回 自然言語処理勉強会@東京 13 users
-
自然言語処理勉強会@東京 第1回 の資料 - Mi manca qualche giovedi`? 44 users
-
NAL研卒業研究ノート:: Rubyモジュール ExtractContent をPythonに移植してみた 13 users
-
NAL研卒業研究ノート:Rubyモジュール ExtractContent をPythonに移植してみた 3 users
-
はてなブックマーク Firefox 拡張 実装の舞台裏 25 users
-
ブログの記事本文のみを取得する : はぐれプログラマ清純派 2 users
-
要約文生成機能の精度向上。 - 青空を探す、旅の記録。 2 users
-
PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装 - 横転プログラミング 24 users
-
Ruby でスクレイピングするなら scrAPI の parser_options とか WWW::Mechanize の... 20 users
-
ネタバレサイト作った - (゚∀゚)o彡 sasata299's blog 3 users
-
Web サイトの本文抽出を PHP で行う | ソフトウェア開発の株式会社システムフレンド 7 users
-
普通のWebページの文を"読めてしまう"文に変換するRubyスクリプト - Unchained Life 13 users
-
ブログの本文抽出 - プログラマになりたい 3 users
-
MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介 67 users
-
Mi manca qualche giovedi`? - Shibuya.JS in Mozilla24 行ってきた 6 users
-
Python から Yahoo! 日本語形態素解析Webサービスを使う + pydot (3) - 傀儡師の館.Pytho... 9 users
-
HTML::ExtractContentを使って本文抽出 - プログラマになりたい 3 users
-
本文抽出モジュールを RubyForge に登録しました (nakatani @ cybozu labs) 20 users
-
SITEINFOのないページをAutoPagerizeするSITEINFO speculator for AutoPage... 54 users
-
AutoPagerizeの全文系SITEINFO - ロックスターになりたい 2 users
-
HTMLのドキュメントから繰り返し部分をみつける - bits and bytes 117 users
このエントリーを含む日記(18)
-
y_tagの日記
y_tag
-
わからん
kitokitoki
-
わからん
kitokitoki
-
Web屋の人の日記 || WebJourney 開発ログ
yssk22
-
Mi manca qualche giovedi`?
n_shuyo
-
konisimple log
konisimple
-
I CAN ’CAUSE I THINK I CAN!
Tnzk
-
横転プログラミング
h0x10
-
Unchained Life
beatinaniwa
-
プログラマになりたい
dkfj
-
プログラマになりたい
dkfj
-
SumiTomohikoの日記
SumiTomohiko
-
SumiTomohikoの日記
SumiTomohiko
-
ロックスターになりたい
ku0522
-
青空を探す、旅の記録。
yune_kotomi
-
補天鳥保管庫
hsada
-
ニートに恋焦がれる今日この頃
Taiyou-neko
-
Mi manca qualche giovedi`?
n_shuyo








