[B! crawler] wablogのブックマーク

wablog id:wablog

crawlerに関するwablogのブックマーク (2)

[Ruby] Webクローラー rcrawl-0.3.5
Posted by masuidrive Tue, 26 Sep 2006 16:45:44 GMT RubyForge: rcrawl-0.3.5 Rubyで書かれたWebクローラー。最近、クローラーのXango を使ってみようと、Perlを勉強し始めたところだったのに・・・。 HTMLの解析をして、リンクリストなども作ってくれる模様。ただスレッドなどはサポートしてないので、そこら辺は改造が要りそう。でもそれぐらいなら自分で一から書くよな。 blogのexample を試したけど、エラーで動かず。まだ開発が始まったばかりだし、今後に期待。 Posted in ruby | no comments | no trackbacks Comments Trackbacks Use the following link to trackback from your own site: h
wablog 2007/02/12
crawler

ruby
リンク
zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW
wablog 2006/06/10
crawler
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx