はじめに Scrapingをするときに、全てを手作業で取り出す。 1サイトであれば、それで良いでしょう。 しかし、100サイト、10,000サイト、1,000サイトといわゆる不特定サイトをスクレイピングする場合、 大変な作業量となります。 最初は楽しいのですが、だんだんと飽きてきますし、100サイトを超えてくると1サイトスクレイピングしようとしている間に、 前にやったサイトのマークアップが変わっていたり、苦痛を伴い始めます。 前置きが長くなりましたが、 クローラー/Webスクレイピング Advent Calendar 2017の9日目です。 世の中どこもかしこも、AI、AIと騒いでいるんだから、スクレイピングなんてAIにやらせとけばいいじゃない とも思いますが、 それは2014年のアドベントカレンダーでもう書いているので、 今日は逆にライトなやつ。簡単に実装できるやつを。 2014年の投稿