[B! python][requests][proxy] ishideoのブックマーク

ishideo id:ishideo

pythonとrequestsとproxyに関するishideoのブックマーク (5)

5 strategies to write unblock-able web scrapers in Python
ishideo 2020/09/25
python

unblock

scraping

user-agent

referers

proxy

get_random_proxy

requests

headers

delay
リンク
スクレイピングにおいてIPのBanを防ぐ方法 - データナード
自然言語処理では、しばしばコーパスを作るためにWeb上のリソースを利用します。そのためにスクレイピングをするのですが、大量のリクエストを特定のサイトに送るとBanされる可能性があります。今回はそれを防ぐ一つの方法を書きます。(悪用厳禁) TL;DR 概要コード例 metadata.py requestsを使った接続サーバリストの見つけ方参考 TL;DR VPNを使おう。概要 nordvpnのようなVPNを使えば、数十の国の数千のサーバを利用することができます。もし、これらの膨大なサーバリストを使ってスクレイピングに利用することができれば、以下の2つのメリットがあります: ランダムにIPを変え続ければブロックされる可能性が下がり、仮にブロックされても別のサーバーのIPを使えばいい。複数のサーバのIPを利用してスクレイピングするので、並列化すれば、time.sleepの間隔を長めにし
ishideo 2019/11/27
scraping

ip

ban

vpn

nordvpn

proxy

python

requests
リンク
How to make python Requests work via SOCKS proxy
ishideo 2019/07/04
python

tor

socks5

requests

proxy

pysocks
リンク
pythonのrequestsでリトライとプロキシを設定 : mwSoft blog
requestsを使ってAPIからデータ取ろうと思った時に調べたこと。まずはリトライ設定をしつつAPIの内容をローカルファイルにダウンロードする処理。リトライについてはAdapterを使うらしい。下記を参考にした。 http://www.mobify.com/blog/http-requests-are-hard/ ダウンロードする方法として、下記Stackoverflowのページを参考にした。requests.getにstream=Trueを設定することでファイルサイズが大きくてもメモリサイズを食わずにダウンロードできる。 http://stackoverflow.com/questions/16694907/how-to-download-large-file-in-python-with-requests-py import requests def download(url, o
ishideo 2019/07/04
python

tor

socks5

requests

9150

proxy

socks

socket

pysocks
リンク
Python Requests + Tor (Socks5)
ishideo 2019/07/04
python

tor

socks5

requests

9150

gist

proxy
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx