(xhtmlではない) HTML 4.01 は、仕様として終了タグがオプションとなっているものがあります。さらに、そもそも文法的に間違った HTML が世の中に多く存在しています。(だけれども HTMLブラウザが気合いで表示しています) このような背景もあり、世の中の HTML には、結構いいかげんなものがあります。これを プログラムで読み込もうとすると、いろいろ難しいのですが、これを解決するたに、HTML正常化をおこなうツールを利用したくなることがあります。 HTML正常化を実現する OSSツールのひとつが TagSoup です。この TagSoup を使った、単純な HTML正常化サンプルを作成しました。 import java.io.IOException; import java.io.StringReader; import java.io.StringWriter