ここ最近というか結構前からhtmlスクレイピングすることが多いのでメモ。 最初はいろいろ試してたんだけど、今使ってるのは2パターン。 ベンチマークとって最速だったからとかじゃなく、単に慣れかも。 このオライリーの本のサンプルコードに含まれているファイル。 http://www.oreilly.co.jp/books/4873111870/download.html 始点と終点書いて直感的に取ってこれる。 $_rawData = getURL($url); $_rawData = mb_convert_encoding($_rawData, "UTF-8", "auto"); $_rawData = cleanString( $_rawData ); $headline = getBlock("<div id=\"headline\">","</div>",$_rawData,false);