エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう - 無駄と文化
この記事は クローラー/Webスクレイピング Advent Calendar 2016 の10日目の記事です。 9日目は @hotu_... この記事は クローラー/Webスクレイピング Advent Calendar 2016 の10日目の記事です。 9日目は @hotu_ta さん、11日目は @TakesxiSximada さん でした。 Web スクレイピングはイレギュラーとの戦いです。特にそれが Web 定点観測のためのスクレイピングであれば難易度はさらに高まります。 スクレイピングしようとしたタイミングでサーバーが死んでいるかもしれない クローラーを書いていたときには気づけなかったバグが遅れて発動するかもしれない 知らぬ間にスクレイピングしたいページの URL が変更されるかもしれない そんなイレギュラーに立ち向かうために、現在 私が試している方法をまとめてみます。 その前に「Web 定点観測」とは? Web 定点観測 とは、一言でいうと「一つの URL を定期的にスクレイピングして経時的な変化を追っていく行為」のこ
2017/02/16 リンク