タグ

searchとロボットに関するlax34のブックマーク (1)

  • ロボット排除 - CyberLibrarian

    ロボットまたはクローラー(Crawler)と呼ばれるプログラムは、Webページに記述されているリンクを辿ってサイトを巡回し、自動的にサイト上の文書や画像などを収集、インデキシングしています。Webサーバの管理者やWebサイトの運営者は、自分たちが管理・運営するWebページをWeb検索エンジンに登録されたくない場合などに、ロボットを排除する設定を行うことができます。 現時点では、ロボット排除(Robot Exclusion)に関する公的な標準規格はありません。W3Cが発行しているHTMLの仕様書にはロボット制御の方法に関する記述はありますが、詳細な仕様とはなっていません。robotstxt.orgというサイトで示されている定義がデファクト・スタンダード(事実上の標準)になっており、世界中のほとんどのロボットがこの定義に従って行動しています。 robots.txt ロボットがサイトを訪問すると

  • 1