この記事は クローラー/Webスクレイピング Advent Calendar 2016 の10日目の記事です。 9日目は @hotu_ta さん、11日目は @TakesxiSximada さん でした。 Web スクレイピングはイレギュラーとの戦いです。特にそれが Web 定点観測のためのスクレイピングであれば難易度はさらに高まります。 スクレイピングしようとしたタイミングでサーバーが死んでいるかもしれない クローラーを書いていたときには気づけなかったバグが遅れて発動するかもしれない 知らぬ間にスクレイピングしたいページの URL が変更されるかもしれない そんなイレギュラーに立ち向かうために、現在 私が試している方法をまとめてみます。 その前に「Web 定点観測」とは? Web 定点観測 とは、一言でいうと「一つの URL を定期的にスクレイピングして経時的な変化を追っていく行為」のこ
![Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう - 無駄と文化](https://cdn-ak-scissors.b.st-hatena.com/image/square/0e8cfaca6920cc5d66d4eed8d407515d433bf058/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftodays_mitsui%2F20161218%2F20161218205656.png)