[B! crawler] SynBooのブックマーク

SynBoo id:SynBoo

crawlerに関するSynBooのブックマーク (2)

PHP で Google 第二回サイト収集ツール（クローラ）と本文情報抽出を PHP で実装 - 横転プログラミング
前回に引き続き検索エンジンについて勉強中です。今回は少し PHP だと気軽に出来るかもしれない、出来ないかもしれないサイトの情報収集ツールつまるところのクローラを構築してみました。 Google や Yahoo などの検索エンジンは、いくら検索アルゴリズムを良くして、ランキングの精度をあげても、収集したサイトの情報あってこそで、元の情報が少なかったり、精度が悪いと、良い情報を提示することは出来ません。そんなわけでサイト情報を頑張って収集するクローラが必要です。流れとしては 1. 起点のサイトを決めて、そこからリンクを再帰的に巡り情報を収集する 2. 収集したサイトから本文を抽出するとなります。まず 2. のフェーズは、検索を行った際に、広告情報などでヒットされては困る（精度が悪くなる）ので、必要になってきます。サイボウズラボの nakatani さんが実装されたものを PHP に移
SynBoo 2009/10/11
php

crawler

searchengine
リンク
MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介
Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。ユーザ側の検索画面そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。インデックスするファイルを指定する画面認証が必要なサーバにも対応し、言語によってフィルタリン
SynBoo 2008/04/28
crawler

java

software

tool

search

open source
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx