[B! php][スクレイピング] snaflotのブックマーク

PHP と Goutte ではじめる超絶簡単クローラー入門 - Qiita

※ 追記ぞくへんかきました PHP と Goutte ではじめる超絶簡単クローラー入門ログイン編 Goutte とは PHP で書かれてるスクレイピングライブラリ CSS セレクタでかける jQuery になじみのあるみんなには簡単すぎる導入 composer つかおう(提案) composer インストールしてないひとはいますぐググろう(きっと Qiita にも記事あるよ！)

snaflot 2015/06/12

リンク

Webスクレイピングが捗るGoutteを使ってみる

シャワー後の水切りでヘドバンしてたら頸椎を痛めてしまいました。あれは絶対やめた方がいいです。と周囲に広めているたきゃはしです。急に本題ですが今回はPHPで簡単にできるWebスクレイピングをご紹介します。 ◯ Webスクレイピングとは Webサイトからデータを抽出するソフトウェア技術のことです。 RSSやWebAPIが公開されていないサイトからでもデータ抽出が出来るようなイメージです。早速クローラーの Goutte（グットゥ）を使って紹介していきたいと思います。 Goutte は Symfony や Twig、Pimple等の開発者として知られるFabienが手がける人気ライブラリです。 ◯ インストール

snaflot 2014/10/07

リンク

はじめてのPHPスクレイピングその１ - プログラマを目指すWebメモ

2014-02-06 はじめてのPHP スクレイピングその１ PHP この記事はスクレイピングしらんけどやってみるか～という人のための記事です。なぜLancers？つまらんサンプルをやるより、実践的なことをやることでさらにphpに対する学習意欲が湧くと思うからです。Lancersを使っている方はお分かりかと思いますがかなり前にサイトリニューアルされたと同時にRSSが勝手に廃止されていました。嫌がらせか何かでしょうか。そうに違いない。クライアント情報もいちいち詳細ページ見ないとわからないし。ということでスクレイピングで強引に引っ張ってこよう。このページのPHPスクリプトを実行してできること・Lancersの"仕事をさがす"ページのタイトルとリンクを取得します完成するもの(全部表示させるとマズイので一部だけ) simplexml dom parserを使います h

snaflot 2014/03/10

リンク

php/スクレイピング/Simple HTML Dom - pro-mameのプログラムメモ

設置ダウンロード simplehtmldom_1_5.zip simplehtmldom_1_5.zipをダウンロード - PHP Simple HTML DOM Parser - SourceForge.JP -- 2012-11-30 (金) 14:45:15 解凍 # unzip simplehtmldom_1_5.zip サンプルサンプルその1 imgタグの抜き出し <?php //もちろん画像のみの抽出も可能でして // simple_html_dom.phpファイルの読み込み include_once('simplehtmldom/simple_html_dom.php'); //スクレイピングしたいURLを指定 $html = file_get_html( 'http://actress.dmm.co.jp/-/list/=/keyword=a/' ); //画像U

snaflot 2014/03/10

リンク

https://mayer.jp.net/?p=2599

snaflot 2014/01/17

すばらしい。後で試してみる

リンク

スクレイピングをしてみよう認証・リダイレクト回避編 – lesson me

今日はスクレイピング時に引っかがりがちな年齢認証などを回避してhtmlを取得する方法について（今日どハマりしたので例えば、取得したいページがリファラーで制限されているアダルト商品など年齢認証で目的のページにたどり着くのにクリックなどが必要こんなケースに直面した場合の対処が必要になってくると思います。年齢認証などは簡単な場合はURLに少し手を入れるだけで特に問題なく取得できるケースも多いですが、リファラーやcookieで制限されると少し手を加えないといけません。 Simple HTML DOM Parserで普通に取得する場合普通はこんな感じでfile_get_htmlだと思います。 $html = file_get_html($it em_url); // $it em_urlは取得したいページのurl リファラーやcookieを設定して取得する場合 $opts = array(

snaflot 2014/01/17

リンク

PHP Simple HTML DOM Parserの使用方法 - Webスクレイピングライブラリ

snaflot 2013/12/04

“find()メソッドで、要素の検索を行えます。 ”

リンク

https://mayer.jp.net/?p=2233

snaflot 2013/06/20

リンク

htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」

html SQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」今週はてブでも大人気を博した記事「真面目にエロサイトを作ってみた【プログラマ編】｜ASTRODEO」や、IDEA*IDEAさんでも紹介されていた、PHPでHTMLをparseするライブラリ「html SQL」ですが、解析するHTMLを指定するにはSQLちっくな書き方をするので、SQL自体に触れる機会の少ない方には手を出しにくいシロモノです。 SQLわかんないです＞＜もっとカンタンにparseしたいぉ☆ってゆー方に全力でゴリ押ししたいのが、今回紹介するMITライセンスのPHPライブラリ「PHP Simple HTML DOM Parser」です！ PHP5で書かれたこの「PHP Simple HTML DOM Parser」の最大の特徴は、解析し

snaflot 2012/06/30

phpQueryとどっちが簡単だろうか

リンク

誰でもスクレイピング！DOM要素を引っこ抜くSimple HTML Dom

WEBサイトは著作権で守られています。許可無く勝手に人様のサイトから情報だけ抜き出して自分のサイト上に公開することは出来ません。この著作権の問題には十分注意してください。スクレイピング便利クラス　Simple HTML Dom スクレイピングの方法はいくつか存在するのがですが、私はSimple HTML Domを好んで使っています。色々調べた結果、個人的にはこれが一番使い易いと思いました。サイトからダウンロードし、simplehtmldom_1_5フォルダをスクレイピングを実行したいサーバーにアップして、simple_html_dom.phpを呼び出すだけで準備は完了します。引っこ抜きの指定が実はCSSそっくり！だからWEBデザイナーにも！簡単ですが、データの引っこ抜き方です。『ここを引っこ抜きたい！』という部分を指定します。下記の赤字部分に注目。引っこ抜きたい(スクレイピングし

snaflot 2012/06/29

リンク

PHP Simple HTML DOM Parserの使用方法 - Webスクレイピングライブラリ

snaflot 2012/06/29

リンク

https://www.openvista.jp/archives/note/2008/php-scraing-library/?2008/php-scraing-library/

snaflot 2012/03/13

リンク

リニューアルを効率化するスクレイピング処理をPHPで実行する方法【URL変更】

大規模webサイトをリニューアルする際に、コンテンツは書き換えず新テンプレートに当てはめたいという場合があります。この作業を手動でやるとかなり時間を取られてしまう上、ミスも考えられます。そういったとき、一括して処理する方法として「スクレイピング」という手法があります。今回はその方法についてまとめて見ました。スクレイピングとはとりあえず用語の定義は以下のようになっています。スクレイピング英語で"scrape"とは「削ること」。特に、ウェブサイトのデータを必要な部分だけ抽出して利用すること。 "ウェブサイトのデータを必要な部分だけ抽出して利用"がまさにそれです。例えばbodyタグの中、id="contents"、aタグのhref属性の中身のみなどいろいろな使い方ができます。準備するもの準備するものは以下の3つです。・CUI上でのphp環境・Simple HTM

snaflot 2012/03/04

リンク

WebスクレイピングライブラリGoutteで遊んでみる - hnwの日記

新年あけましておめでとうございます。今年もボチボチやっていきます。本稿ではPHP製のWebスクレイピングライブラリGoutteを紹介します。 Goutte（グット）とは Goutteは必要十分な機能を持ったWebスクレイピングライブラリです。そもそもWebスクレイピングというのは、外部Webページから必要なデータを取ってくるくらいの意味です。つまり、GoutteはWebスクレイピングを簡単に行う道具だと考えればいいでしょう。具体的には、GoutteはWebクローラとHTMLパーサを組み合わせたようなものです。Cookieやフォームの扱いなどWebブラウザとしての機能は一通り揃っていますし、CSS風の要素指定もできるなど、機能面では他のライブラリと遜色ないように感じます。さらに僕個人がGoutteに期待している点は、安定性とロングサポートです。Goutteは主要機能をSymfony2お

snaflot 2012/01/16

PHPでスクレイピング

リンク

PHPでスクレイピング　xpathとscrape_func.php : 目指せ1級！30代サラリーマンボルダリング日記

ここ最近というか結構前からhtml スクレイピングすることが多いのでメモ。最初はいろいろ試してたんだけど、今使ってるのは２パターン。ベンチマークとって最速だったからとかじゃなく、単に慣れかも。このオライリーの本のサンプルコードに含まれているファイル。 http://www.oreilly.co.jp/books/4873111870/download.html 始点と終点書いて直感的に取ってこれる。 $_rawData = getURL($url); $_rawData = mb_convert_encoding($_rawData, "UTF-8", "auto"); $_rawData = cleanString( $_rawData ); $headline = getBlock("<div id=\"headline\">","</div>",$_rawData,false);

snaflot 2011/11/30

リンク

指定銘柄の一定期間の株価を取得するPHPプログラム - 揮発性のメモ２

スクレイピングの練習。指定銘柄の一定期間の株価を取得するRubyプログラム - うなの日記 http://www.nijiiroworks.com/blog/214.html こちらを参考に、yahooから株価を取得してCSVを出力するプログラムを作成。 http://table.yahoo.co.jp/t?c=2010&a=11&b=1&f=2010&d=11&e=7&g=d&s=9631&y=0&z=&x=sb のテーブルを解析してCSV出力するだけ。コード <?php include_once('simple_html_dom.php'); $tablenumber = 9; // データは9番目のテーブルにある // 引数取得 $sdate = localtime(strtotime($argv[1]),TRUE); $c=$sdate['tm_year']+1900; $a=

snaflot 2011/06/10

リンク

PHPでスクレイピングの巻

前回のつづき。 phpの「PHP Simple HTML DOM Parser」でスクレイピングをしますよって話です。一応SEOツールを作りたいので、ひとまずターゲットはGoogleとYahooのバックリンク数をとりましょう。バックリンクを取るには、検索するときにGoogleは「link:」をYahooは「linkdomain:」を対象URLの前につけて検索。検索結果○○○件中の「○○○件」がバックリンク数ですな。この作業をphpで実現するためのコードはこんな感じ。 include_once 'simple_html_dom.php'; // link encoding $searchLinkKeyword = urlencode('link:' . $linkGoogleUrl); $searchLinkGoogleUrl = 'http://www.google.co.

snaflot 2011/06/10

リンク

PHPでのスクレイピングに役立つライブラリ - (DxD)∞

APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTML Scraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき

snaflot 2011/06/10

自分にとっての定番を作っておきたい

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

phpとスクレイピングに関するsnaflotのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス