[B! crawler] jesterseraのブックマーク

jestersera id:jestersera

crawlerに関するjesterseraのブックマーク (2)

Log in with Atlassian account
We tried to load scripts but something went wrong. Please make sure that your network settings allow you to download scripts from the following domain: https://id-frontend.prod-east.frontend.public.atl-paas.net
jestersera 2008/06/20
crawler

java

oss

tool

web
リンク
MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介
Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。ユーザ側の検索画面そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。インデックスするファイルを指定する画面認証が必要なサーバにも対応し、言語によってフィルタリン
jestersera 2008/05/22
crawler

オープンソース

クローラ

検索

search
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx