ここ最近というか結構前からhtmlスクレイピングすることが多いのでメモ。 最初はいろいろ試してたんだけど、今使ってるのは2パターン。 ベンチマークとって最速だったからとかじゃなく、単に慣れかも。 このオライリーの本のサンプルコードに含まれているファイル。 http://www.oreilly.co.jp/books/4873111870/download.html 始点と終点書いて直感的に取ってこれる。 $_rawData = getURL($url); $_rawData = mb_convert_encoding($_rawData, "UTF-8", "auto"); $_rawData = cleanString( $_rawData ); $headline = getBlock("<div id=\"headline\">","</div>",$_rawData,false);
![PHPでスクレイピング xpathとscrape_func.php : 目指せ1級!30代サラリーマンボルダリング日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/da78a05937633f7a2b4b2219826151c370cd607b/height=288;version=1;width=512/https%3A%2F%2Fparts.blog.livedoor.jp%2Fimg%2Fusr%2Fcmn%2Fogp_image%2Flivedoor.png)