HTMLのテキスト部分だけを抜き出したいとか、特定タグの内容を抽出したいとかいうことを実現するものは、HTMLパーサーと呼ぶらしい。 ライセンス含めて使えそうなのを参考からピックアップする。 検討結果 2014-07-31時点で jsoup が良いんじゃないかと思った。 MITライセンスなのと、パーサー機能、使い方も悪くなさそう。最終更新日も割と最近。 参考 Comparison of HTML parsers テーブルでの比較 Javaで実装されたHTMLパーサの性能や使い勝手を比べてみるよん | 世界はどこまでもシンプルである たくさんのライブラリへのリンク 2007/08/23 日記: Javaで実装された HTML Parser (HTMLパーサ) を調べてみました テーブル形式でライセンスまで掲載 JavaのHTMLパーサー色々 - ドナドナごとごと サンプル付きでリンク紹介(j