XSS対策として入力値チェックライブラリを考えているんですが、入力値としてHTMLを許可する場合、これを解析してなんとかならんもんかと思ってたりします。 JavaのHTMLパーサ XMLスキーマとかも使えそうなもんですが、柔軟になる分、ユーザはXMLスキーマの書き方を覚えなければならないわけで、いろんなチェックを、フィルタを通すように使える設計で作っておいて、「IE8がでたー!」となったときでも「IE8Filter」を追加で作って、フィルタに追加するだけー・・・とかにしようかと。 調べてみると、いがぴょんさんのJavaで実装された HTML Parser (HTMLパーサ) を調べてみましたがとても素敵です。これにパフォーマンスとか、使い勝手を加えてまとめてみます。 今回、Google先生や、いがぴょんさんも言及しているOpen Source HTML Parsers in Javaから、
![Javaで実装されたHTMLパーサの性能や使い勝手を比べてみるよん](https://cdn-ak-scissors.b.st-hatena.com/image/square/535ad0e19bb86b65c8daa1ced1600055292f8562/height=288;version=1;width=512/http%3A%2F%2Fhbb.afl.rakuten.co.jp%2Fhgb%2F%3Fpc%3Dhttp%253A%252F%252Fthumbnail.image.rakuten.co.jp%252F%25400_mall%252Fbook%252Fcabinet%252F6858%252F9784774166858.jpg%253F_ex%253D400x400%26m%3Dhttp%253A%252F%252Fthumbnail.image.rakuten.co.jp%252F%25400_mall%252Fbook%252Fcabinet%252F6858%252F9784774166858.jpg%253F_ex%253D80x80)