タグ

webとロボットに関するlax34のブックマーク (2)

  • 検索エンジンロボットの巡回を拒否するメタタグ一覧 (Yahoo!/Google)

    HTMLファイルのHEADタグ内のMETAタグ(メタタグ)で指定する検索エンジンロボット(クローラー)の"拒否"(検索避け)に関連した「Robots Exclusion Protocol」(「REP」:ロボット排除プロトコル)のMETAタグに指定するCONTENT属性値名一覧。 拒否系としては、もともと「NOINDEX」と「NOFOLLOW」だけが定義されてましたが、検索エンジン側の独自拡張で増えてきた経緯があります。2008年6月、日の3大検索エンジン「Yahoo!」(ヤフー)、「Google」(グーグル)、「Microsoft Live Search」(現Bing)の3社は共通仕様を発表しました(赤項目)。 [追記...] 2010年12月よりYahoo! JAPANが提供するYahoo!検索はGoogleの検索データを利用してます。対応してるMETAタグはGoogleと同じになりま

  • ロボット排除 - CyberLibrarian

    ロボットまたはクローラー(Crawler)と呼ばれるプログラムは、Webページに記述されているリンクを辿ってサイトを巡回し、自動的にサイト上の文書や画像などを収集、インデキシングしています。Webサーバの管理者やWebサイトの運営者は、自分たちが管理・運営するWebページをWeb検索エンジンに登録されたくない場合などに、ロボットを排除する設定を行うことができます。 現時点では、ロボット排除(Robot Exclusion)に関する公的な標準規格はありません。W3Cが発行しているHTMLの仕様書にはロボット制御の方法に関する記述はありますが、詳細な仕様とはなっていません。robotstxt.orgというサイトで示されている定義がデファクト・スタンダード(事実上の標準)になっており、世界中のほとんどのロボットがこの定義に従って行動しています。 robots.txt ロボットがサイトを訪問すると

  • 1