某事件に関連して、自分がクローラーにスリープ時間を入れる際に考えていることを晒してみる。 私はクローラーを作る時は、YahooとかGoogleくらいの規模のサイトが相手なら3~5秒スリープ(Googleにはたまに怒られる)、中規模のサイトは15秒スリープ、普通にブラウザで見るだけで「重いなぁ」と感じるようなサイトや、日にPVが1万もなさそうな小規模のサイトは20~30秒スリープしてピークタイムと思しき時間は処理を止める設定にしていました。 また、実行する時間帯を気にしなくても良く、且つ1日に行ないたいリクエスト数が少ない場合は、夜中のうちに走らせることが多いです。1日1000reqでいいならAM2時から15秒スリープで走らせれば明け方には処理が終了します。寝る前にキックして、朝起きたら終わってるというのが1つのパターンです。日本のサービスならその時間帯はサーバの負荷はスカスカのはずなので、