タグ

2010年9月3日のブックマーク (4件)

  • 1秒に1リクエストするクローラーは常識的か : mwSoft blog

    事件に関連して、自分がクローラーにスリープ時間を入れる際に考えていることを晒してみる。 私はクローラーを作る時は、YahooとかGoogleくらいの規模のサイトが相手なら3~5秒スリープ(Googleにはたまに怒られる)、中規模のサイトは15秒スリープ、普通にブラウザで見るだけで「重いなぁ」と感じるようなサイトや、日にPVが1万もなさそうな小規模のサイトは20~30秒スリープしてピークタイムと思しき時間は処理を止める設定にしていました。 また、実行する時間帯を気にしなくても良く、且つ1日に行ないたいリクエスト数が少ない場合は、夜中のうちに走らせることが多いです。1日1000reqでいいならAM2時から15秒スリープで走らせれば明け方には処理が終了します。寝る前にキックして、朝起きたら終わってるというのが1つのパターンです。日のサービスならその時間帯はサーバの負荷はスカスカのはずなので、

    frkw2004
    frkw2004 2010/09/03
    WEBサービスでは「何回/秒のリクエストに耐えられないといけない」という基準はないのでしょうか?
  • http://b.hatena.ne.jp/logic_master/20100903

    frkw2004
    frkw2004 2010/09/03
    id:logic_master 新刊検索なら1日数回のアクセスで十分だと思うけど何百回としているのはプログラムに改善の余地があるのでは?情報更新頻度からクローラ頻度の適正が決まるのであって、1回/秒なら適正というわけではない
  • ホームページへの大量アクセス事件 岡崎市立中央図書館の弁明に異論相次ぐ

    ホームページへの大量アクセス事件について、愛知県の岡崎市立中央図書館が初めて弁明した内容に、異論が相次いでいる。図書館ソフトの不具合が指摘されているのに対し、大量アクセスが悪いとの弁明に終始しているからだ。真相はどうなのか。 きっかけは、愛知県在住の男性(39)が岡崎市立中央図書館の新着図書データベースに大量アクセスをして利用者に閲覧できなくしたとして、岡崎署に偽計業務妨害の疑いで2010年5月25日に逮捕されたことだ。 「利用者自らが配慮すべき」 報道によると、男性は3~4月、自作プログラムを使って、新着図書のリストに自動的にアクセスして、それをコピペすることを14日間3万3000回繰り返していた。これがサイバー攻撃とみなされたわけで、名古屋地検岡崎支部が6月、男性を起訴猶予処分にしていた。 ところが、男性がアクセスしたのは、1秒間に1回程度だったため、ソフトに詳しいネットユーザーらを中

    ホームページへの大量アクセス事件 岡崎市立中央図書館の弁明に異論相次ぐ
    frkw2004
    frkw2004 2010/09/03
    「コピペ」って、まぁ比喩だけど/ MDISのソフトも不具合だけど、クローラ側のプログラムも良くないかも。例えばある検索条件でアクセスすれば1回で済むのにわざわざ検索範囲を狭くして100回アクセスしてるとか。
  • ホームページへの大量アクセス事件 岡崎市立中央図書館の弁明に異論相次ぐ (J-CASTニュース) - Yahoo!ニュース

    ホームページへの大量アクセス事件について、愛知県の岡崎市立中央図書館が初めて弁明した内容に、異論が相次いでいる。図書館ソフトの不具合が指摘されているのに対し、大量アクセスが悪いとの弁明に終始しているからだ。真相はどうなのか。 きっかけは、愛知県在住の男性(39)が岡崎市立中央図書館の新着図書データベースに大量アクセスをして利用者に閲覧できなくしたとして、岡崎署に偽計業務妨害の疑いで2010年5月25日に逮捕されたことだ。 ■「利用者自らが配慮すべき」 報道によると、男性は3〜4月、自作プログラムを使って、新着図書のリストに自動的にアクセスして、それをコピペすることを14日間3万3000回繰り返していた。これがサイバー攻撃とみなされたわけで、名古屋地検岡崎支部が6月、男性を起訴猶予処分にしていた。 ところが、男性がアクセスしたのは、1秒間に1回程度だったため、ソフトに詳しいネットユー

    frkw2004
    frkw2004 2010/09/03
    仕様策定のときに、三菱:「どれぐらいの利用頻度を想定してますか?」図書館:「利用者数から考えて、1時間に最大数十人規模じゃないかな」 とかあったりして。