仕事でXMLをparse(解析)したことは多々あれど、HTMLに関してはさっぱりです。 XMLについては、DOM、SAXといったAPIが用意されていることは知っていますが、 HTMLについては、APIの有無もわかりません。 そこで、HTML Parserについて、調べてみることにしました。 Java-Source.netのOpen Source HTML Parsers in Javaというページを見てみると、 オープン・ソースで多くのHTML Parserが存在することがわかります。 NekoHTMLHTML ParserJava HTML ParserJericho HTML ParserJTidyTagSoupHotSaxCobraJava Mozilla Html ParserHtmlCleanerVietSpider HTMLParserこれから各パーサーを試用してみたいと思いま
![HTML Parserを考える1 : yasusone it lab](https://cdn-ak-scissors.b.st-hatena.com/image/square/da78a05937633f7a2b4b2219826151c370cd607b/height=288;version=1;width=512/https%3A%2F%2Fparts.blog.livedoor.jp%2Fimg%2Fusr%2Fcmn%2Fogp_image%2Flivedoor.png)