PerlやPythonでWebスクレイピングをやったことはあったのですが、今回PHPで初めて使ってみたので、使った内容を備忘しておこうと思います٩( ‘ω’ )و DOMDocumentクラスのインスタンス生成 最初にDOMDocumentクラスのインスタンスを生成して、 スクレイプしたいWebのhtmlを読み込ませます 試しに当ブログの最初の記事をスクレイプしようと思います $url = 'http://memorandum-plus.com/2018/01/15/sql%E3%81%AE%E5%9F%BA%E6%9C%AC%EF%BC%88update%E3%80%81insert%E3%80%81delete%EF%BC%89/'; $html = file_get_contents($url); $dom = new DOMDocument; //インスタンス生成 @$dom->l
はじめに 淫夢要素はありません。 Simple HTML DOM Parser や Goutte の使い方は至る所で説明されていますが、PHPネイティブのDOMに関しての記事がかなり少ないので書いてみることにします。 ちなみに… Simple HTML DOM Parserは内部で何回も正規表現を使って全ての要素をパースするので、かなり遅いです。これ使うぐらいなら最初から自分で正規表現一本で書いたほうがマシ。自分で正規表現を使って必要部分だけを抜き出す方法は、全ての方法の中で最も高速なので、正規表現が得意な人だったらこれでもいいと思います。 Goutteは内部でPHPネイティブのDOMを使ってます。PHPネイティブのDOMはDOMとして読ませる方法の中では最も高速なので良い方法をチョイスしていることになるのですが、そもそもGoutteに頼らなくてもそれなりに十分やっていけます。何より依存フ
単純作業って嫌ですよね。 たまには良いんですよ、たまには。頭の中をからっぽにして音楽聴きながらExcelにデータを打ち込むとか、まぁまず二度は入力しないだろうって作業なら我慢して出来るんですけど、毎日どこそこのページをチェックして、データをコピーして貼り付け、とか考えただけで鬱になりそうです。 その昔、ネットゲームの攻略情報サイトを制作/運営していまして、公式サイトからのサーバーメンテナンスのお知らせとか、自分のサイトにもリンク貼って告知していたわけです。 当時、これを何とか自動化できないかなと思って、PHPのfile_get_contents関数を使ってHTMLを読み込んで、お知らせのあるULタグを見つけて、日付っぽい文字列とリンクっぽい文字列を見つけて、アレやコレやいじくってと、だいたい100行くらいのPHPスクリプトで実現できました。 一緒にそのWebサイトを作っていた人たちもいるの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く