タグ

crawlerに関するSynBooのブックマーク (2)

  • PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装 - 横転プログラミング

    前回に引き続き検索エンジンについて勉強中です。今回は少し PHP だと気軽に出来るかもしれない、出来ないかもしれないサイトの情報収集ツールつまるところのクローラを構築してみました。 GoogleYahoo などの検索エンジンは、いくら検索アルゴリズムを良くして、ランキングの精度をあげても、収集したサイトの情報あってこそで、元の情報が少なかったり、精度が悪いと、良い情報を提示することは出来ません。そんなわけでサイト情報を頑張って収集するクローラが必要です。 流れとしては 1. 起点のサイトを決めて、そこからリンクを再帰的に巡り情報を収集する 2. 収集したサイトから文を抽出する となります。 まず 2. のフェーズは、検索を行った際に、広告情報などでヒットされては困る(精度が悪くなる)ので、必要になってきます。 サイボウズラボの nakatani さんが実装されたものを PHP に移

    PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装 - 横転プログラミング
  • MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介

    Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。 ユーザ側の検索画面 そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。 今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。 インデックスするファイルを指定する画面 認証が必要なサーバにも対応し、言語によってフィルタリン

    MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介
  • 1