タグ

robots.txtに関するtsuyossiiのブックマーク (4)

  • robots.txt とは? - とほほのWWW入門

    robots.txt とは、goo、Google、Lycos などのロボット型検索エンジンに対する命令を記述するためのファイルです。自分のページが、検索エンジンのデータベースに登録されないように指示します。 ただ、この指定は強制的なものではなく、この指定を行っても検索してしまう検索エンジンはあるかもしれません。goo、Google、Lycos は大丈夫のようです。 robots.txt ファイルは、そのサイトのトップに置かなくてはなりません。 ○ http://www.xxx.zzz/robots.txt × http://www.xxx.zzz/~tohoho/robots.txt robots.txt の中には次のように記述します。これは、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止するものです。 User-a

  • 初心者にも分かる!robots.txtの作り方

    robots.txtとは?robots.txtとは、GoogleYahoo!などといった、自サイトの情報を取得(クロール)するプログラム(クローラー)を制御するためのテキストファイルです。例えば、特定のファイルや、ディレクトリをクロール禁止に指定することで、それらの関連ページや画像などを検索エンジンにインデックスさせないようにする、などといったことができます。 何を覚えればいい?robots.txtの設置方法は簡単です。よほど特殊な事情がない限り、「ここにアクセスしないでね」という記述方法だけを覚えておけば十分です。細かく書いたからといって、SEO上、有利、不利になるようなことはないので安心して下さい。強いて言うなら、細かく書き過ぎて間違った制御をした場合に不利になります。

    初心者にも分かる!robots.txtの作り方
  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • robots.txtを作成する上で気をつけるべき9つの注意点 – 和洋風KAI

    和洋風KAIは、Apple・水樹奈々・べ歩きが三柱のブログです。モットーは「楽しく」「便利で」「端的に」。 ⇒ アバウト ⇒ 免責事項 注意1 robots.txtとは? クローラーに自分のウェブサイトのどこにアクセスしてはいけないかを教えることができるテキストファイル。 注意2 robots.txtのファイル名 ファイル名は「robots.txt」 「robot.txt」でもなく「Robots.txt」でもない。 注意3 robots.txtを置く場所。 あなたのウェブサイトのトップフォルダに置く。 例えば、http://example.comがトップページだった場合、http://example.com/robots.txtに置く。 注意4 robots.txtの書き方の基的な例 User-agent: * Disallow: /forbidden/ Allow: /approv

  • 1