はじめに 最近のお仕事ではクローラーを開発するためのフレームワークである scrapy を使ってクローラーの開発をしています。 かつて趣味でクロールをやってみていたとき は色々なコマンドを組み合わせてなんとかやっていたのですが、それと比べると scrapy は遥かに強力で便利なフレームワークだなと日々実感しています・・・。 例えば、 https://blog.scrapinghub.com/ をクロールして投稿されている記事のタイトルとURLをページングもしながら全て取得する処理はたったこれだけのコードで書けます。 def parse(self, response): for post in response.css('div.post-item'): yield Page( url=post.css('div.post-header h2 a::attr(href)').extract_

