[B! PHP][スクレイピング] bichikulifeのブックマーク

スクレイピングをPHPでする方法とは？～初心者でもできるサンプルコード付き～ – PigData | ビッグデータ収集・分析・活用ソリューション

bichikulife 2022/10/03

リンク

PHP – DOMを使ったスクレイピング | memorandum-plus

PerlやPythonでWebスクレイピングをやったことはあったのですが、今回PHPで初めて使ってみたので、使った内容を備忘しておこうと思います٩( ‘ω’ )و DOMDocumentクラスのインスタンス生成最初にDOMDocumentクラスのインスタンスを生成して、スクレイプしたいWebのhtmlを読み込ませます試しに当ブログの最初の記事をスクレイプしようと思います $url = 'http://memorandum-plus.com/2018/01/15/sql%E3%81%AE%E5%9F%BA%E6%9C%AC%EF%BC%88update%E3%80%81insert%E3%80%81delete%EF%BC%89/'; $html = file_get_contents($url); $dom = new DOMDocument; //インスタンス生成 @$dom->l

bichikulife 2022/10/03

リンク

PHPネイティブのDOMによるスクレイピング入門 - Qiita

はじめに淫夢要素はありません。 Simple HTML DOM Parser や Goutte の使い方は至る所で説明されていますが、PHPネイティブのDOMに関しての記事がかなり少ないので書いてみることにします。ちなみに… Simple HTML DOM Parserは内部で何回も正規表現を使って全ての要素をパースするので、かなり遅いです。これ使うぐらいなら最初から自分で正規表現一本で書いたほうがマシ。自分で正規表現を使って必要部分だけを抜き出す方法は、全ての方法の中で最も高速なので、正規表現が得意な人だったらこれでもいいと思います。 Goutteは内部でPHPネイティブのDOMを使ってます。PHPネイティブのDOMはDOMとして読ませる方法の中では最も高速なので良い方法をチョイスしていることになるのですが、そもそもGoutteに頼らなくてもそれなりに十分やっていけます。何より依存フ

bichikulife 2022/10/03

リンク

PHPでHTMLを簡単に解析できるDOMDocument

単純作業って嫌ですよね。たまには良いんですよ、たまには。頭の中をからっぽにして音楽聴きながらExcelにデータを打ち込むとか、まぁまず二度は入力しないだろうって作業なら我慢して出来るんですけど、毎日どこそこのページをチェックして、データをコピーして貼り付け、とか考えただけで鬱になりそうです。その昔、ネットゲームの攻略情報サイトを制作／運営していまして、公式サイトからのサーバーメンテナンスのお知らせとか、自分のサイトにもリンク貼って告知していたわけです。当時、これを何とか自動化できないかなと思って、PHPのfile_get_contents関数を使ってHTMLを読み込んで、お知らせのあるULタグを見つけて、日付っぽい文字列とリンクっぽい文字列を見つけて、アレやコレやいじくってと、だいたい100行くらいのPHPスクリプトで実現できました。一緒にそのWebサイトを作っていた人たちもいるの

bichikulife 2022/10/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

PHPとスクレイピングに関するbichikulifeのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス