metazyのブックマーク / 2010年8月15日

[php]スクレイピングならHTMLScraping→SimpleXML→xpath | うえちょこ＠ぼろぐ

24 users
labs.uechoco.com
テクノロジー

野暮用でphpのスクレイピングについていろいろと調べて、いくつかライブラリを見つけました。 HTML Scraping WebScraper Snoopy rhaco Tidy関数この中で、個人的に気に行ったのはHTML Scrapingです。このライブラリの手順は以下の通りです。 HTTP_RequestでHTML文書を取得します。サーバにTidy拡張が導入済みならTidy関数でHTMLをXMLに変換(修正)します。導入されていなければHTMLParserという同じ作者が作ったHTMLをXMLに整形するライブラリを用いてXML化します。 XML化した文書をSimpleXMLとして出力します。お好みでCache_Liteに保存できます。 HTML Scrapingライブラリを使えば、サーバにTidyが入っているかどうかにかかわらず、HTML文書をSimpleXMLオブジェクトに変換すること

[php]スクレイピングならHTMLScraping→SimpleXML→xpath | うえちょこ＠ぼろぐ

はてなブックマーク

タグ

2010年8月15日のブックマーク (1件)

[php]スクレイピングならHTMLScraping→SimpleXML→xpath | うえちょこ＠ぼろぐ

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス