タグ

Articleと_libに関するfukudamasa09のブックマーク (1)

  • PHPでHTMLをパースして解析する簡単な方法

    今、個人的に管理しているサイトのHTMLが正しく出力されているかを確認するためのスクリプトを書いています。そのために、出力されたHTMLを解析して、中に適切な情報が含まれているかを知る必要が出てきました。 そういうわけで、いわゆるスクレイピングのようなことをしたくなってきました。 HTMLの解析はなかなか大変 これがJSONデータを解析するとかなら良いのですが、HTMLを細かく解析するのはなかなか大変です。 なぜなら、HTMLというのは結構みんな自由に書かれてしまっているからです。それでいて、そんな自由に書かれたHTMLもブラウザ上は動いてしまうため、それで良しとされてしまっている。時に中身は最悪だったりします。コンピュータが処理するには、厳密性に欠けるデータなんですね。 simplexml_load_stringでは解析できない。 「PHPに便利な関数ないかなー」と探していると、simp

    PHPでHTMLをパースして解析する簡単な方法
  • 1