Webサイトを自動操作するのによく使われるのがスクレイピングと呼ばれる技術だ。HTMLを解析し、その中から希望の値を取り出して処理するものだ。 大抵、スクリプト言語と正規表現を使って行われると思うが、これを発展させIDEレベルに仕上げたのがこのソフトウェアだ。 今回紹介するオープンソース・ソフトウェアはWeb-Harvest、Webスクレイピング統合開発環境だ。 Web-HarvestはJavaで作られたソフトウェアで、スクレイピングに関する情報をXMLベースで記述していく。そのXMLファイルを設定ファイルとして、データを入れ、返却されたHTMLをXPathを使って解析していくというものになる。 便利な関数が様々に定義されており、例えばHTML-to-XMLを使って解析しやすいフォーマットに変換する事ができる。そしてループやIF文を使って処理分けしていく。 サンプルが幾つもあるが、例えばG