野暮用でphpのスクレイピングについていろいろと調べて、いくつかライブラリを見つけました。 HTMLScraping WebScraper Snoopy rhaco Tidy関数 この中で、個人的に気に行ったのはHTMLScrapingです。このライブラリの手順は以下の通りです。 HTTP_RequestでHTML文書を取得します。 サーバにTidy拡張が導入済みならTidy関数でHTMLをXMLに変換(修正)します。導入されていなければHTMLParserという同じ作者が作ったHTMLをXMLに整形するライブラリを用いてXML化します。 XML化した文書をSimpleXMLとして出力します。 お好みでCache_Liteに保存できます。 HTMLScrapingライブラリを使えば、サーバにTidyが入っているかどうかにかかわらず、HTML文書をSimpleXMLオブジェクトに変換すること
![[php]スクレイピングならHTMLScraping→SimpleXML→xpath | うえちょこ@ぼろぐ](https://cdn-ak-scissors.b.st-hatena.com/image/square/8d71ff5111e05619a10d29bb40d7aebaa75c8fbc/height=288;version=1;width=512/https%3A%2F%2Fs0.wp.com%2Fi%2Fblank.jpg)