[B! scrapy] yuuyuu_0523のブックマーク

yuuyuu_0523 id:yuuyuu_0523

scrapyに関するyuuyuu_0523のブックマーク (4)

ItemとItem Loaderを使ったScrapyの書き方 + 小ネタ集 - Qiita
Python のウェブスクレイピングツールである Scrapy についての記事です。すでに、関連記事は多数ありますが、あまり公式ドキュメントに沿った使い方で実装している記事が見当たらないので、原理主義の真髄基本を紹介するために書いてみました。なお、これは2017年7月時点のサイトデザインをもとに記事やプログラムを書いています。 (追記) ソースコードを github に置きました。クラス名などは、記事を書いた時点のものから少し変えています。 Scrapy の仕組み下図は、ScrapyでHTMLを解析するときの典型的な処理の流れです。 It em 抽出する情報の一単位分を表すクラスです。スクレイピングする際はたいてい同じ構造を持つ情報を複数取り出して、CSVに変換したりデータベースに格納したりしますが、CSV ならその１行、データベースなら１レコードに相当するオブジェクトです。 Fiel
yuuyuu_0523 2019/08/01
scrapy
リンク
Scrapyで2種類のアイテムを別々のファイルに出力する - Qiita
前提の環境 Python 3.7.0 Scrapy 1.6.0 動機 Scrapyでスクレイピングして，同じページから種類の違う情報を集めて別のCSVに保存したい．要点 Exporterを複数用意してそれぞれにアイテムを保存する．例 import scrapy from scrapy.exporters import Csv It emExporter from my_project.it ems import MyIt emA from my_project.it ems import MyIt emB class MyProcessSpider(scrapy.Spider): name = 'my_process' allowed_domains = ['qiita.com'] start_urls = ['http://qiita.com'] def __init__(self, *args
yuuyuu_0523 2019/08/01
scrapy
リンク
scrapyについて理解を深める - Qiita
class HogeSpider(scrapy.Spider): name: str = 'hoge' start_urls: List[str] = ['https://data-ippai.com/'] def parse(self, response): for li in response.xpath('li-no-xpath'): url = li.xpath('anchor-no-link').extract_first() yield Request( url=url, callbacl=self.parse_detail, ) def parse_detail(self, response): loader = HogeIt emLoader( response=response, selector=response.body, ) return loader.load_it
yuuyuu_0523 2019/08/01
scrapy
リンク
Item Exporters — Scrapy 2.11.2 documentation
yuuyuu_0523 2019/08/01
scrapy
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx