こんにちわ、Takaです。最近仕事でPythonの『Scrapy』を多く使用するのですが、今回はそのScrapyでクローリングする際にダウンロードエラーを取得してハンドリングする方法を備忘録も兼ねて紹介したいと思います。 Scrapyとは、Pythonのクローリング・スクレイピングのフルスタックフレームワークになります。とても強力で便利なフレームワークになり、冗長的な処理をフレームワーク側がやってくれるので、クローリング・スクレイピング処理に集中することができます。 なお、今回のコードはScrapyのバージョン1.4.0をベースにしたものです。 さて、まずはScrapyのSpiderクラスのサンプルコードをみていきましょう。 import scrapy class MySpider(scrapy.Spider): name = 'example' allowed_domains = ['e