タグ

perlとgoogleに関するnorthweaverのブックマーク (2)

  • Perl、PHPでGooglebotを一定の確率ではじく

    PerlPHPGooglebotを一定の確率ではじく 2007-05-01-2 [Programming] 「動的生成ページへのGooglebot(Googleのクローラ)のアクセス数 が多すぎてサーバに負荷がかかりすぎる問題」に悩まされています。 robots.txt の Crawl-delay は効かないし[2007-03-21-1]、 Googleウェブマスターツールでクロール率を低く設定しても ある回数よりも下がらないしで困っていました。 アクセス禁止にすれば完全解決なのですが、 それにより検索されなくなるのはファインダビリティが下がって嫌なので、 とりあえずランダムで 503 を返すことで対処しました。 ときどき503が出ることにより、しばらくするとGooglebotが 「サーバが混んでいるんだな」と思ってくれるみたいで、 結果としてクローラのアクセス数が激減、かつ、検索結果

    Perl、PHPでGooglebotを一定の確率ではじく
  • Googleにもアクセス拒否され、スパム送信源と化した「libwww-perl」とは?

    スパム対策をして気がついたのですが、どうやらスパムトラックバックを送信してくるリモートホストIPアドレスなど)はバラバラであっても、ユーザーエージェント、いわゆるブラウザの名称部分に「libwww-perl/5.805」というように「libwww-perl」と入っているものが多く、結果として、Googleなどは検索結果ページに対してこのユーザーエージェント名の一部「libwww」が含まれているとアクセス拒否しているようです。 ネット上で調べてみると、かなり多くの人が「libwww-perlはスパム送信ボットだ」と思っているらしいので、その正体を探ってみます。実際にはスパム送信のためのものではないです。どんなものでも悪用されると悲劇が起きるという例になってしまっています。 詳細は以下の通り。 まず最初に、「libwww-perl」がスパム発生器と化している状況は検索すれば国内や海外含めて山

    Googleにもアクセス拒否され、スパム送信源と化した「libwww-perl」とは?
  • 1