先日のブログ記事でも紹介しましたが、加藤耕太氏(id:mi_kattun)の著した「Python クローリング&スクレイピング」という本のレビューをお手伝いさせていただきました。この本のご紹介をしてみたいと思います。 Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者:加藤 耕太技術評論社Amazon 日々ITの仕事していると、定型的なデータを提供するためのサイトにもかかわらず、データそのものが単なるWebページとして表現されていることに出くわします。 エンジニアとしては、 「なんでもっとマシンリーダブルな形式でデータを公開してくれないんだろう?」 と思うものですが、嘆いたところでこうしたページがすぐになくなるわけではありません。 本書はこうしたサイトを巡回(クローリング)してWebページを取得し、そこから定型処理可能な状態として取り出す(スクレイピ