最近、Webスクレイピング(ウェブサイトを自動巡回して、ウェブページのデータを必要な部分だけ抽出して利用すること)をするツールを作ったので、スクレイピングに使えそうなライブラリ等のまとめ。 スクレイピング部分はRubyで、GUI部分はJavaで書いたので、RubyとJavaを行ったり来たりで面倒だった。全部Javaで書いちゃえばよかったかなぁ… ちなみに作ったのは、広告代理店のWebページから、広告一覧と掲載用テキストを自動取得するツール。 WWW::Mechanize http://mechanize.rubyforge.org/ Ruby用の、HTTPクライアントライブラリ。仮想的なWebブラウザをプログラムから操作して、ウェブサイトを自動巡回できる。 フォームの読み取りやリンクの抽出などもできて、自動巡回スクリプトがサクっとかける。 ちなみにJavaだと、Commons HTTP C