タグ

Crawlerに関するyumatsumoのブックマーク (3)

  • がんちゃんのブログ: webクローラーのUser-Agent一覧

    このところうちに来ている/来たことのあるwebクローラー(とおもわれるもの)のUser-Agentを一覧表にしてみました。具体的にはrobots.txtを読みにきたひとの一覧です。期間は2007/6/26〜7/18まで。 "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" "Gigabot/3.0 (http://www.gigablast.com/spider.html)" "Googlebot-Image/1.0" "JS-UZUSHIO" "Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)" "Mozilla/5.0 (compatible; Googlebot/2.1; +

  • Perl、PHPでGooglebotを一定の確率ではじく

    PerlPHPGooglebotを一定の確率ではじく 2007-05-01-2 [Programming] 「動的生成ページへのGooglebot(Googleのクローラ)のアクセス数 が多すぎてサーバに負荷がかかりすぎる問題」に悩まされています。 robots.txt の Crawl-delay は効かないし[2007-03-21-1]、 Googleウェブマスターツールでクロール率を低く設定しても ある回数よりも下がらないしで困っていました。 アクセス禁止にすれば完全解決なのですが、 それにより検索されなくなるのはファインダビリティが下がって嫌なので、 とりあえずランダムで 503 を返すことで対処しました。 ときどき503が出ることにより、しばらくするとGooglebotが 「サーバが混んでいるんだな」と思ってくれるみたいで、 結果としてクローラのアクセス数が激減、かつ、検索結果

    Perl、PHPでGooglebotを一定の確率ではじく
  • ウノウラボ Unoh Labs: 携帯サイトとクローラ

    harukiです。 ケータイユーザも検索エンジンから来るユーザも増えています。 そのため、携帯サイトも検索エンジンのクローラへ対応する必要があります。 ・Mobile Link Discoveryの記述を追加する PC用のページのheadタグ内に <link rel="alternate" media="handheld" href="(ケータイURL)" /> の記述を追加するだけです。 Mobile Link Discoveryに対応しているサイトでは、ケータイからのアクセス時に直接アクセスしてもらえるようになります。 Mobile Link Discovery 仕様 http://www.sixapart.jp/docs/tech/mobile_link_discovery_ja.html 検索エンジンでは、Googleモバイルのgoogle mobile proxy http

  • 1