[B! python][scraping][validation] ishideoのブックマーク

ishideo id:ishideo

pythonとscrapingとvalidationに関するishideoのブックマーク (1)

Scrapyでけ日記をクローリングする (2. PipelineでPostgreSQLに保存する) - け日記
前回に引き続き、Scrapyを使ってこの日記のクローリングを行います。 github.com 今回はクローリングで得られた値を、バリデーションしてPostgreSQLに保存するPipelineを実装します。Spiderの実装は前回の投稿も参考にしてみてください。 ohke.hateblo.jp こちらの書籍を参考にしてます。 Pipeline ScrapyにおけるPipelineは、Spiderがクローリング・スクレイピングした値に対して、バリデーションチェックや永続化などの後処理を行うための仕組みです。 Spiderが取得した値をIt emに詰めて返すと、優先順位に従って複数のタスクが実行されます。ここでは例として、前回作成したarchive_spiderを使い、取得した記事タイトル・投稿日のフォーマットをチェックするPipelineと、PostgreSQLに保存するPipelineを作
ishideo 2019/05/08
python

scrapy

pipeline

PostgreSQL

scraping

validation
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx