JavaでHTMLをパースする方法は色々ある。 前回 は、JavaAPIである ParserDelegatorを利用してHTMLをパースする方法を掲載した。 今回は、オープンソースソフトウェアである Jericho HTML Parser を利用してHTMLをパースしてみよう。 今回利用するライブラリのjarファイル名は、jericho-html-2.3.jarである。 本家サイト から ダウンロード することも出来るし、mavenを利用しているなら pom.xml へ下記の dependency を追加することで取得可能である。 依存関係に悩みたくないので、筆者ならmavenを利用する。 pom.xml <dependency> <groupId>net.htmlparser</groupId> <artifactId>jericho-html</artifactId> <version