仕事でXMLをparse(解析)したことは多々あれど、HTMLに関してはさっぱりです。 XMLについては、DOM、SAXといったAPIが用意されていることは知っていますが、 HTMLについては、APIの有無もわかりません。 そこで、HTML Parserについて、調べてみることにしました。 Java-Source.netのOpen Source HTML Parsers in Javaというページを見てみると、 オープン・ソースで多くのHTML Parserが存在することがわかります。 NekoHTMLHTML ParserJava HTML ParserJericho HTML ParserJTidyTagSoupHotSaxCobraJava Mozilla Html ParserHtmlCleanerVietSpider HTMLParserこれから各パーサーを試用してみたいと思いま