タグ

crawlerに関するfavrilのブックマーク (2)

  • クローラーを作るためのフレームワーク·Anemone MOONGIFT

    RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

    クローラーを作るためのフレームワーク·Anemone MOONGIFT
  • ヤフー、モバイル版Yahoo!検索のクローラー情報を公開

    ヤフーは7月16日、モバイル版Yahoo!検索のクローラー情報を公開した。 ヤフー以外のモバイル検索のクローラー情報は、「モバイルSEOのポイント実践編--端末識別、IPアドレスに最適化する」にまとめてある。 モバイル版Yahoo!検索のインデックスクローラーのユーザーエージェントおよびIPアドレスの帯域は以下のとおり。 User Agent (ユーザーエージェント) Y!J-SRD/1.0 Y!J-MBS/1.0 IPアドレス 124.83.159.146 〜 124.83.159.185 124.83.159.224 〜 124.83.159.247 モバイル版Yahoo!検索クローラーのUserAgentはこれまでも公開されていた。今回ヤフーは、モバイルサイトではIPアドレスでアクセス制御を実施しているケースが多いと考えられることからクローラーのIPアドレスも公開したとしている。 な

    ヤフー、モバイル版Yahoo!検索のクローラー情報を公開
  • 1