タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

robots.txtに関するtetsukampのブックマーク (4)

  • The Web Robots Pages

    Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for email addresses, and they have many other uses. On this site you can learn more about web robots. About /robots.txt explains what /robots.txt is, and how to use it. The FAQ answers many frequ

  • https://www.etsy.com/robots.txt

  • robots.txt の書き方、アクセス禁止や制限について

    robots.txt は、ウェブサイトを自動的に巡回しにくるボットのアクセスを禁止したり、制限したりなどの命令を記述するためのファイル。 ボット(Bot)は、ロボット(Robot)、クローラー(Crawler)、スパイダー(Spider)など呼び方はいろいろある。 robots.txt を使う目的は人それぞれだと思うが、多くの人は不要なボットのアクセスを禁止・制限するために使用している。 サーバーのアクセスログをチェックするとGoogleやBingのボットだけでなく、多くのボットがアクセスしてきていることが分かる。 ひどいときは、ユーザーのアクセス数よりボットのアクセス数の方が多いこともある。 世の中行儀の良いボットばかりでなく、クロール間隔が短かったり、単に情報を収集するだけで自サイトに何も恩恵をもたらさないボットも数多く存在する。 そもそもGoogleとBing以外のボットはほぼ不要と

  • 【Crawl-delay】 検索エンジンクローラーの巡回頻度調節 (robots.txt)

    検索エンジンの巡回クローラー(ロボット)がウェブ上の情報を収集する際のアクセス頻度(間隔)を指定できる「Crawl-delay」パラメータ。ロボット制御プロトコルに基づいて、「robots.txt」ファイルにて指定します。各検索エンジンのヘルプページより該当の記述を引用しときます。 まずはYahoo! JAPAN(ヤフー)。下の文章は昔のもので、現在の「Yahoo!検索 インフォセンター」には単位の記述がありません。 検索エンジン用ロボットからのリクエスト数を減らすには (中略) ■リクエスト数を減らすには アクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定 を、サーバーの環境に合わせて設定してください。 「robots.txt」をウェブサーバーに置き、"Crawl-delay: xx"の"xx"を5や20などに調整すると、 アクセス間隔を伸ばせます。 例

  • 1