John Resig - Pure JavaScript HTML Parser JavaScript単体で動作するHTMLパーサー。 JavaScript単体で、HTMLをパースしてXMLに変換するデモも公開されています。 次のように、閉じていなかったり、不正なHTMLを正すことが可能です。 JavaScriptでの実装のため、クライアントサイドでこの処理が可能になります。 例1) <b>Hello <p>John ↓ <b>Hello </b><p>John</p> 例2) <a href=">aaa ↓ <a href=""">aaa</a> HTMLtoDOM関数で、HTMLをDOMに変換することも可能みたい。 JavaScriptでスクレイピングしたりできそうですね。 関連エントリ PHPでのスクレイピングに役立つライブラリ色々 XPath使いのための日本語チートシート