これは,クローラー/Webスクレイピング Advent Calendar 2016の1日目の記事です. JavaScriptを利用したページをスクレイピングするためには,スクリプトを実行し,ページを適切にレンダリングする必要があります. 本記事では,そのようなケースに便利なPythonライブラリscrapy-splashを紹介します. 前置き ScrapyやSplashを既にご存知の方は読み飛ばして下さい. Scrapyとは? Scrapyとは,Python製のクローリング・スクレイピングフレームワークです.フレームワークというだけあって,Scrapyにはクローリング・スクレイピングに便利なオプションがあらかじめ用意されています. Scrapyに用意されている便利なオプション例 サイトクローリング間隔を設定 robots.txtを解釈したクローリングを自動的に実行可能 Scrapyを利用す