PHP5でのスクレイピングについて調査してみた。 正規表現でやってもいいのだけど。 PHP5でやるのだからSimpleXMLでやってみたい。 となると、いかに未整形HTMLを整形済にしてSimpleXMLとするかが 課題となる。これについて調べてみた。 ↓これが答え。なるものを見つけました。 HTMLParser(PEARのXML_HTMLSax3使用)orTidyで整形してるそうです。 HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス : Under Construction, Baby: # SimpleXML+HTMLParser or Tidy+HTTP_Request+Cache_Lite http://www.rcdtokyo.com/ucb/contents/i000851.php これで調査終了。というのも寂しいので。 もう少しお手軽にで