タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

xpathに関するbleu-bleutのブックマーク (2)

  • [PHP]DOM, XPathを使ったスクレイピング(HTMLのタグ内容取得) | PHP Archive

    サイトから特定のタグを抜き出すには、DOMDocument::loadHTML() を使います。 基的な手法は以前解説した記事と同じですのでまずはそちらをお読み下さい。 このサンプルはちょっと癖のある HTML ページからいくつかのタグの内容を取得するものです。 <?php $html = <<<EOD <html> <head> <title>Page Title</title> </head> <body> <div id="container"> <div id="header"> <p>this is header</p> </div> <div id="content"> <p>&quot;Hello, World!&quot;</p> <p id="sample">Sample <strong>Text</strong></p> <ul> <li>A</li> <li>B</

  • PHPネイティブのDOMによるスクレイピング入門 - Qiita

    はじめに 淫夢要素はありません。 Simple HTML DOM Parser や Goutte の使い方は至る所で説明されていますが、PHPネイティブのDOMに関しての記事がかなり少ないので書いてみることにします。 ちなみに… Simple HTML DOM Parserは内部で何回も正規表現を使って全ての要素をパースするので、かなり遅いです。これ使うぐらいなら最初から自分で正規表現一で書いたほうがマシ。自分で正規表現を使って必要部分だけを抜き出す方法は、全ての方法の中で最も高速なので、正規表現が得意な人だったらこれでもいいと思います。 Goutteは内部でPHPネイティブのDOMを使ってます。PHPネイティブのDOMはDOMとして読ませる方法の中では最も高速なので良い方法をチョイスしていることになるのですが、そもそもGoutteに頼らなくてもそれなりに十分やっていけます。何より依存フ

    PHPネイティブのDOMによるスクレイピング入門 - Qiita
  • 1