[B! クローラー][crawler] goingerのブックマーク

goinger id:goinger

クローラーとcrawlerに関するgoingerのブックマーク (3)

クローラーを作るためのフレームワーク·Anemone MOONGIFT
RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。あるURLを指定し、そこからリンクされているURLを一覧表示できるそうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの
goinger 2009/11/07
crawler

クローラー
リンク
Grub | Help crawl it all
The Long, Bizarre History Of Beetlejuice 2’s Development
goinger 2009/11/07
crawler

クローラー
リンク
Blog Never Knows: オープンソースのクローラー
オープンソースのクローラー日々の巡回先であるセキュリティーホールメモから悪徳商法？マニアックスに関するグーグルによって省かれる問題におけるスラッシュドットの記事を発見、その記事に対するコメントから、オープンソースの検索エンジン Nutch に関する＠IT の記事を発見、Nutch はクローラー（WEBを巡回しWEB上のものを集めてくるためのもの）を持たないため、オープンソースのクローラーを利用することを推奨しており、それがオープンソースのクローラーである「Grub」だそうだ。こういうのをちょうど探していた、すばらしい。Windows でも使えるようなので早速一晩動かしてみることにしよう。と、思ったが、どうやらこの Grub とやらはローカルにファイルを落としてくれるようなものではないようだ。みんなで協力して URL を集めましょうというようなもので、SETI@HOME などのソフトと似
goinger 2009/11/07
クローラー

crawler
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx