[B! 検索エンジン] siriusjackのブックマーク

siriusjack id:siriusjack

検索エンジンに関するsiriusjackのブックマーク (2)

大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
robots.txtとは robots.txtは、検索エンジンのクローラー（bot）に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:（ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能） Crawl-Delay:（クロールの時間間隔を指定） Disallow:（クロールされたくないページやディレクトリを指定） Allow:（Disallowで指定されたディレクトリの小階層で
siriusjack 2013/04/12
検索エンジン

web
リンク
NAVER
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
siriusjack 2011/06/10
検索エンジン

webサービス

まとめ

お役立ち
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx