PHPでHTMLをパースするで紹介したPHP Simple HTML DOM Parseで、UserAgentを偽装したくなったので、ちょこっとスクリプトを修正してみました。 simple_html_dom.php function file_get_html() { $dom = new simple_html_dom; $args = func_get_args(); $context = stream_context_create(array('http' => array( 'method' => 'GET', 'header' => 'User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET
Cookieが必要なサイトをPerlのWebScraperでスクレイピングしたい <?php // PHP Simple HTML DOM Parser include_once('./simple_html_dom.php'); // UTF-8で処理define。 define("CHAR_SET","UTF-8"); // 文字化け対策。 mb_language("Japanese"); //cookieを設定 $opts = array('http'=>array('method' => 'GET','header' => "Accept-language: ja\r\n". "Cookie: id=1111; domain=.hoge.com;afg=0;\r\n")); $context = stream_context_create($opts); $html = file_
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
設置 ダウンロード simplehtmldom_1_5.zip simplehtmldom_1_5.zipをダウンロード - PHP Simple HTML DOM Parser - SourceForge.JP -- 2012-11-30 (金) 14:45:15 解凍 # unzip simplehtmldom_1_5.zip サンプル サンプルその1 imgタグの抜き出し <?php //もちろん画像のみの抽出も可能でして // simple_html_dom.phpファイルの読み込み include_once('simplehtmldom/simple_html_dom.php'); //スクレイピングしたいURLを指定 $html = file_get_html( 'http://actress.dmm.co.jp/-/list/=/keyword=a/' ); //画像U
$body = file_get_contents( $url ); //$body = mb_convert_encoding($body, 'UTF-8', 'sjis-win'); // 文字コードが違えば // HTMLが間違っている場合があるので、tidyを通して綺麗にする。 $tidy_obj = new tidy; $tidy_obj->parseString( $body, array(), 'utf8'); $tidy_obj->cleanRepair(); $body = $tidy_obj->html(); unset( $tidy_obj ); // 分解 $dom = new DOMDocument; $dom->encoding = 'UTF-8'; $dom->preserveWhiteSpace = false; $dom->loadHTML( $body
概要 卒研のためにWEBサイトから必要な情報だけ抽出したデータセットを作成したときに用いた、PHPでHTMLを簡単にパースできるというPHP Simple HTML DOM Parserの使い方の備忘記録。 参考ページ PHPでHTMLをパースする 抽出対称 amazonのベストセラーのランキングページ2009年の本のベストセラーから ISBN-10 本のタイトル 著者 を取得する。 ※ 2010/12/29 時点でのhtmlには対応している。 本のタイトル・著者 抽出スクリプト <?php // ランキングページの1ページ目のURL(1位~20位) $page_url = "http://www.amazon.co.jp/gp/bestsellers/2009/books/ref=pd_ts_pg_1?ie=UTF8&pg=1"; // ランキングページのHTMLを取得 $page_da
URLやファイルからDOM化 $html = file_get_html('http://www.google.com/'); DOM化したものから全てのimgタグのsrc属性の値を取得 foreach($html->find('img') as $element){ echo $element->src . '<br>'; } DOM化したものから全てのaタグのhref属性の値を取得 foreach($html->find('a') as $element){ echo $element->href . '<br>'; } HTMLソースからDOM化 // $htmlにHTMLソースをパースしたものを代入(?) $html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>'); // 1番目(2つ
HTMLをパースしてきてDB化したり、RSSのテンプレに落とし込む…と言ったことを少し前からしているのですけど、1つ2つならいざ知らず対象サイトが増えてくると正規表現で何かし続けるのはたいそう無理があります。そういうわけでDOMを使ったりXPathを使ったりもしていたのですが、どちらもHTMLの構造にぴったりとは言えなくて、高度なことが出来るが故に記述が複雑になってしまうのでした。うーん。慣れるまでにハードルがあるな… そんなことを思っていたのですが、ふとした拍子に見つけたライブラリ「PHP Simple HTML DOM Parser」を利用してみたらば、とてつもなく便利でびっくり。jQueryのようなセレクタでガンガン指定して持ってくるスタイルでわかりやすいのなんの。 $text = $dom->find('#todays_darling', 0)->innertext; //今日のダ
WEBサイトは著作権で守られています。許可無く勝手に人様のサイトから情報だけ抜き出して自分のサイト上に公開することは出来ません。この著作権の問題には十分注意してください。 スクレイピング便利クラス Simple HTML Dom スクレイピングの方法はいくつか存在するのがですが、私はSimple HTML Domを好んで使っています。色々調べた結果、個人的にはこれが一番使い易いと思いました。 サイトからダウンロードし、simplehtmldom_1_5フォルダをスクレイピングを実行したいサーバーにアップして、simple_html_dom.phpを呼び出すだけで準備は完了します。 引っこ抜きの指定が実はCSSそっくり!だからWEBデザイナーにも! 簡単ですが、データの引っこ抜き方です。『ここを引っこ抜きたい!』という部分を指定します。 下記の赤字部分に注目。引っこ抜きたい(スクレイピングし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く