タグ

クローラに関するktakeshiのブックマーク (1)

  • 検索エンジンのボットとユーザーエージェント

    GoogleやBingなどの検索エンジンは、インターネット上のウェブサイトの情報を収集してサーバーに保存している。 これはプログラムを使って自動的に行っている。 そのようなプログラムはボットのほか、ロボット、クローラー、スパイダーなどと呼ばれている。 ボットは定期的にサイトを巡回(クロール)して情報を更新している。 クロール頻度はサイトの更新頻度、重要度などにより異なる。 ボットがサイトにアクセスすると、そのIPアドレスやユーザーエージェントがサーバーのアクセスログに残る。 アクセスログを見ると多くのボットが存在することが分かる。 ここでは主な検索サービスのボットについて紹介する。 IPアドレスホスト名、ユーザーエージェントは一例であり、変更されることもある。 詳しくはボットの公式サイトを参照。 まともなボットならユーザーエージェントにボットに関するURLが記載されている。 検索エンジン

  • 1