前回 BeautifulSoup4 を単独で使ってスクレイピングする方法について記事を書いた。 Web スクレイピングは主にクローリングとスクレイピングの二つのパートに分かれていて、BeautifulSoup4 は後者に特化したパッケージだった。 今回は、Scrapy というフレームワークを使って、前者のクローリングも含めてやってみよう。 まずは今回使用する Scrapy と BeautifulSoup4 をインストールする。 ちなみに Scrapy は現時点で Python 3 対応が完了していないので、ここからの作業は全て Python 2.x 系の環境が必要になる。 また、今回の内容には不要だけど、いちいち出る警告を消したいので service_identity も一緒にインストールしておく。 $ pip install scrapy beautifulsoup4 service_i