タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

検索とphpに関するAinHandのブックマーク (1)

  • PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装 - 横転プログラミング

    前回に引き続き検索エンジンについて勉強中です。今回は少し PHP だと気軽に出来るかもしれない、出来ないかもしれないサイトの情報収集ツールつまるところのクローラを構築してみました。 GoogleYahoo などの検索エンジンは、いくら検索アルゴリズムを良くして、ランキングの精度をあげても、収集したサイトの情報あってこそで、元の情報が少なかったり、精度が悪いと、良い情報を提示することは出来ません。そんなわけでサイト情報を頑張って収集するクローラが必要です。 流れとしては 1. 起点のサイトを決めて、そこからリンクを再帰的に巡り情報を収集する 2. 収集したサイトから文を抽出する となります。 まず 2. のフェーズは、検索を行った際に、広告情報などでヒットされては困る(精度が悪くなる)ので、必要になってきます。 サイボウズラボの nakatani さんが実装されたものを PHP に移

    PHP で Google 第二回 サイト収集ツール(クローラ)と本文情報抽出を PHP で実装 - 横転プログラミング
  • 1