エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
クローリング速度自動調整のすゝめ - Qiita
Scrapyでクローリングをするときにダウンロード間隔をどうするべきかは悩ましい問題です。 クローリング... Scrapyでクローリングをするときにダウンロード間隔をどうするべきかは悩ましい問題です。 クローリング対象のシステムの負荷を考えると、短すぎるダウンロード間隔は避けるべきです。 ですが、適切な間隔値は対象サイトごとに異なり、また時間帯によっても異なります。 そのため、サーバーのレスポンスタイムやレスポンスコードによってダウンロード間隔を動的に変えることが出来れば便利です。 Scrapyにはそのための機能であるAutoThrottle Extentionがあるため、これを利用してみます。 使い方 使い方はかなり簡単で、settings.pyに以下の設定を書くだけです。 あとはこれだけで自動的にダウンロード間隔を調整してくれます。 仕組み さて、この拡張機能はどのように動作しているのでしょうか? 以降ではその仕組を説明していきます。 まずクローリング対象サイトに対して並列リクエストをしたい目