ふと、スクレイピングしようと思いたって、HTMLパーサって何かいいのないかな、と思ってたときのことです。 JavaでHTMLパーサと言えば… 公式のHTMLParserでなく、Jericho HTMLParserの方が便利なメソッドを提供しています。 しかしこのHTMLParser、やはり要素を1つ1つ階層を追っていくのが面倒です。 というのも、すっかりjQueryに慣れてしまったので、タグの要素を追いかけるのが面倒なのです。綺麗なHTMLをしているサイトだけではないですし… じゃあjQueryのセレクタ(要素の検索や選択)が使えるものが無いかと調べたら、一瞬で出てきました。素晴らしい世界です。 jsoup: Java HTML Parser MITライセンスです。 ちなみにHTMLパース機能だけでなく、HTTPクライアントの機能も持ち合わせている優等生です。スクレイピングした