robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で
![大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴](https://cdn-ak-scissors.b.st-hatena.com/image/square/dd5a54e69fd18e8fee8232aa7372d4b491ddc22b/height=288;version=1;width=512/https%3A%2F%2Fwww.geek.sc%2Fwp-content%2Fuploads%2F2013%2F04%2Frobots-txt1.gif)