[B! crawler][クローラ] nextbigthingのブックマーク

nextbigthing id:nextbigthing

crawlerとクローラに関するnextbigthingのブックマーク (1)

PHP で Google 第二回サイト収集ツール（クローラ）と本文情報抽出を PHP で実装 - 横転プログラミング
前回に引き続き検索エンジンについて勉強中です。今回は少し PHP だと気軽に出来るかもしれない、出来ないかもしれないサイトの情報収集ツールつまるところのクローラを構築してみました。 Google や Yahoo などの検索エンジンは、いくら検索アルゴリズムを良くして、ランキングの精度をあげても、収集したサイトの情報あってこそで、元の情報が少なかったり、精度が悪いと、良い情報を提示することは出来ません。そんなわけでサイト情報を頑張って収集するクローラが必要です。流れとしては 1. 起点のサイトを決めて、そこからリンクを再帰的に巡り情報を収集する 2. 収集したサイトから本文を抽出するとなります。まず 2. のフェーズは、検索を行った際に、広告情報などでヒットされては困る（精度が悪くなる）ので、必要になってきます。サイボウズラボの nakatani さんが実装されたものを PHP に移
nextbigthing 2010/12/19
php

crawler

クローラ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx