Groovyでスクレイピングしてみる - No Programming, No Life の続き。 前回は取得したHTMLの内容を正規表現で解析していましたが、JavaのライブラリでNekoMTMLというのがあるらしく*1、それを使うと曖昧なHTMLをいい感じに解析してくれるようです。GroovyのXmlSlurperでラップするだけですぐに使用できるので簡単です。 準備 本家からアーカイブを取得してくる。*2 適当な場所に解凍 解凍した中から、nekohtml.jar と xercesImpl.jar をクラスパスの通った場所へコピー*3 ちなみに、xercesImpl.jar は .\lib\xerces-2.9.1 にあったものを利用しました 動作サンプルソース 前回と同様、はてなハイクの最新エントリページをスクレイピングしてみます。 (動作確認: Groovy Version: 1