ちょっと大量のHTMLファイルをチェックする作業があって、grep/Perl One Linerで頑張るのも厳しいよなぁと思い、HTMLファイルをJavaでパースしてどうにかしようと思い立ちました、今日。 で、JavaでHTMLパーサといえば、個人的にはパッと思い浮かぶのがNekoHTML。 CyberNeko HTML Parser http://nekohtml.sourceforge.net/ が、いかんせんこれは古い。HTML5にも対応していませんし。 よって、他のパーサを探してみました。2つほど見つかったので、ご紹介します。 HTMLをパースするので、以下のような閉じタグがないHTMLもパースできなければなりません。 index.html <!DOCTYPE html> <html> <head> <title>タイトル</title> </head> <body> <div i