2006年10月28日22:30 カテゴリTips クローラにしかとシカトしてもらう50の方法 というわけで備忘録代わりに。 Apache: The Definitive Guide [邦訳:Apacheハンドブック] [を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。 とりあえず、CGIスクリプトのファイル名を変更して回避。robots.txt 最も基本的なのがこれ。たつをくんがこれを知らないはずはないのだけど一応基本からということで。 robotstxt.org Robots Exclusion Standard - Wikipedia, the free encyclopedia http://www.dan.co.jp/robots.txt ちなみに最後のワイルドカードを
Baiduよけ 2006-10-18-1 [WebTool][Tips] 中国の検索エンジン「百度」(Baidu)のクローラは元気が良すぎて困る。 今のところ利点はないのでクロールを拒否しておくことに。 そりゃまあ、百度から日本語での検索もできないことはないですけど、 そもそも日本語向けじゃないから精度は問題外。 - だめな例:パンク(ンはストップワードか?) - 少しは見れる例:東京タワー アクセスログに残っていたURL「网頁搜索幇助-禁止搜索引??収録的方法」 (http://www.baidu.com/search/robots.html) を見てみると、普通の robots.txt の書き方が書いてあった。で、下記を robots.txt に追加。 User-agent: baiduspider Disallow: しかし、この Baiduspider、なかなか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く