[B! middleware][python] ishideoのブックマーク

ishideo id:ishideo

middlewareとpythonに関するishideoのブックマーク (3)

GitHub - aivarsk/scrapy-proxies: Random proxy middleware for Scrapy
ishideo 2020/09/25
scrapy-proxies

proxy

scrapy

middleware

scraping

python

github
リンク
PythonでJavaScriptを使ったWebサイトをスクレイピングする - Qiita
概要 JavaScriptでDOMを作ってるサイトをPythonを使ってスクレイピングしたので、手順をメモ。大雑把には、ScrapyとSeleniumを組み合わせてやった。 Scrapy Scrapyは、クローラーを実装するためのフレームワーク。クローラーをSpiderのサブクラス、スクレイピングした情報をIt emのサブクラス、スクレイピングした情報に対する処理をPipelineのサブクラス、という風にフレームワークが決めたインターフェースを満たすクラスとしてクローラーを実装する。 scrapyというコマンドが提供されてて、このコマンドを使って、作ったクローラーの一覧を見たり、クローラーを起動したりできる。 Seleniumは、ブラウザをプログラムから制御するためのツール（でいいのかな？）。Pythonも含めたいろんな言語で使える。よくWebサイト/アプリの自動テスト文脈でよく出てく
ishideo 2019/05/14
python

selenium

javascript

arrow

firefox

middleware

qiita
リンク
Scrapy でエラーハンドリング for v1.1.3 (※一部未解決) - 無駄と文化
突然ですが Scrapy v1.1.0 から Python 3 に対応して嬉しいですね。これまで Scrapy のために 2.7 で通してきたんで。さて、今回は Scrapy におけるエラーハンドリング(例外処理) についてまとめようと思います。スクレイピングという行為は外部の構造化されていないデータを取ってくるものなので例外はつきものです。例外が投げられたとき何となく正常終了したように見せることは厳禁です。例外から正しく復帰させるか、または例外が投げられたならば正しく落とすことが重要です。でないと、その後に例外に気づいて調節→リトライできませんからね。 Scrapy データフローに沿ったエラーハンドリングスクレイピング中に起こる不測の例外をキャッチするために通常の try ... except 文を使う事はできません。なぜなら、我々が記述した Spider を実際に起動
ishideo 2019/05/14
python

scrapy

spider_error

process_spider_exception

errback

httpbin.org

middleware

exception

classmethod
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx