クローラー/Webスクレイピング Advent Calendar 2015の4日目です。 スクレイピングを自動で行ってくるサービスも最近増えてきました。 kimonolabsやimport ioなど。 APIが用意されているサービスを使うと、もうスクレイピングする処理を書くのは嫌になってきます。 しかし、お客さんの都合だったりシステムの仕様として、スクレイピングが避けられなくなったとき、やはり昔ながらの方法でスクレイピングを行うことになります。 よくある仕様として、以下のようなものがあると思います。 データが存在しない場合はエラーとしない。 しかしデータが取得できなかった場合はエラーとしたい。 ここまでなら、データの取得だけテストしておけば、あとは一度取得したデータが取れなくなった場合にエラーとすれば上手く行きそうです。 ここにもう一つ仕様が入ってきたときに、話がややこしくなります。 それ