[B! 検索ロボット] kenichiiceのブックマーク

kenichiice id:kenichiice

検索ロボットに関するkenichiiceのブックマーク (3)

suzaku: 01-read me first! アーカイブ
kenichiice 2007/09/22
「SUZAKU(朱雀) はインターネット／イントラネットを対象にした、フリーのロボット型サーチエンジンです」

software

検索

検索ロボット
リンク
404 Blog Not Found:クローラにしかとシカトしてもらう50の方法
2006年10月28日22:30 カテゴリTips クローラにしかとシカトしてもらう50の方法というわけで備忘録代わりに。 Apache: The Definitive Guide [邦訳:Apacheハンドブック] [を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。とりあえず、CGIスクリプトのファイル名を変更して回避。robots.txt 最も基本的なのがこれ。たつをくんがこれを知らないはずはないのだけど一応基本からということで。 robotstxt.org Robots Exclusion Standard - Wikipedia, the free encyclopedia http://www.dan.co.jp/robots.txt ちなみに最後のワイルドカードを
kenichiice 2006/11/01
検索ロボット
リンク
[を] Baiduよけ
Baiduよけ 2006-10-18-1 [WebTool][Tips] 中国の検索エンジン「百度」(Baidu)のクローラは元気が良すぎて困る。今のところ利点はないのでクロールを拒否しておくことに。そりゃまあ、百度から日本語での検索もできないことはないですけど、そもそも日本語向けじゃないから精度は問題外。 - だめな例：パンク（ンはストップワードか？） - 少しは見れる例：東京タワーアクセスログに残っていたURL「网頁搜索幇助-禁止搜索引??収録的方法」 (http://www.baidu.com/search/robots.html) を見てみると、普通の robots.txt の書き方が書いてあった。で、下記を robots.txt に追加。 User-agent: baiduspider Disallow: しかし、この Baiduspider、なかなか
kenichiice 2006/10/20
検索ロボット
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx