PHPでHTMLをパースするで紹介したPHP Simple HTML DOM Parseで、UserAgentを偽装したくなったので、ちょこっとスクリプトを修正してみました。 simple_html_dom.php function file_get_html() { $dom = new simple_html_dom; $args = func_get_args(); $context = stream_context_create(array('http' => array( 'method' => 'GET', 'header' => 'User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET
設置 ダウンロード simplehtmldom_1_5.zip simplehtmldom_1_5.zipをダウンロード - PHP Simple HTML DOM Parser - SourceForge.JP -- 2012-11-30 (金) 14:45:15 解凍 # unzip simplehtmldom_1_5.zip サンプル サンプルその1 imgタグの抜き出し <?php //もちろん画像のみの抽出も可能でして // simple_html_dom.phpファイルの読み込み include_once('simplehtmldom/simple_html_dom.php'); //スクレイピングしたいURLを指定 $html = file_get_html( 'http://actress.dmm.co.jp/-/list/=/keyword=a/' ); //画像U
HTMLをパースしてきてDB化したり、RSSのテンプレに落とし込む…と言ったことを少し前からしているのですけど、1つ2つならいざ知らず対象サイトが増えてくると正規表現で何かし続けるのはたいそう無理があります。そういうわけでDOMを使ったりXPathを使ったりもしていたのですが、どちらもHTMLの構造にぴったりとは言えなくて、高度なことが出来るが故に記述が複雑になってしまうのでした。うーん。慣れるまでにハードルがあるな… そんなことを思っていたのですが、ふとした拍子に見つけたライブラリ「PHP Simple HTML DOM Parser」を利用してみたらば、とてつもなく便利でびっくり。jQueryのようなセレクタでガンガン指定して持ってくるスタイルでわかりやすいのなんの。 $text = $dom->find('#todays_darling', 0)->innertext; //今日のダ
WEBサイトは著作権で守られています。許可無く勝手に人様のサイトから情報だけ抜き出して自分のサイト上に公開することは出来ません。この著作権の問題には十分注意してください。 スクレイピング便利クラス Simple HTML Dom スクレイピングの方法はいくつか存在するのがですが、私はSimple HTML Domを好んで使っています。色々調べた結果、個人的にはこれが一番使い易いと思いました。 サイトからダウンロードし、simplehtmldom_1_5フォルダをスクレイピングを実行したいサーバーにアップして、simple_html_dom.phpを呼び出すだけで準備は完了します。 引っこ抜きの指定が実はCSSそっくり!だからWEBデザイナーにも! 簡単ですが、データの引っこ抜き方です。『ここを引っこ抜きたい!』という部分を指定します。 下記の赤字部分に注目。引っこ抜きたい(スクレイピングし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く