PHPでHTMLをパースするには、PECL::Tidyを使う方法やDOM拡張モジュールを使う方法、「HTMLを整形式のXML文書に修正するPHPクラス : Under Construction, Baby」で配布されているようなライブラリなどを使う方法などがある。 この中でDOM拡張モジュールは、PHP5からPHPコアに含まれているため他の方法に比べて利用しやすい。 DOM拡張モジュールでHTMLをパースするにはDOMDocument->loadHTML()を使う。 HTMLを読み込むためのメソッドなので、閉じられていないタグがあっても読み込むことができる。 <?php $html = <<<EOD <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>誰でもわかるプ