タグ

ブックマーク / datanerd.hateblo.jp (1)

  • スクレイピングにおいてIPのBanを防ぐ方法 - データナード

    自然言語処理では、しばしばコーパスを作るためにWeb上のリソースを利用します。そのためにスクレイピングをするのですが、大量のリクエストを特定のサイトに送るとBanされる可能性があります。今回はそれを防ぐ一つの方法を書きます。(悪用厳禁) TL;DR 概要 コード例 metadata.py requestsを使った接続 サーバリストの見つけ方 参考 TL;DR VPNを使おう。 概要 nordvpnのようなVPNを使えば、数十の国の数千のサーバを利用することができます。もし、これらの膨大なサーバリストを使ってスクレイピングに利用することができれば、以下の2つのメリットがあります: ランダムにIPを変え続ければブロックされる可能性が下がり、仮にブロックされても別のサーバーのIPを使えばいい。 複数のサーバのIPを利用してスクレイピングするので、並列化すれば、time.sleepの間隔を長めにし

    スクレイピングにおいてIPのBanを防ぐ方法 - データナード
  • 1