このブログでも、Tidy無しのPHPでHMTL Parserなどで、パーサを紹介したりしましたが、どうもPHPはWEBスクレイピングに関してPerlやRubyほど強くない、というかライブラリが出揃ってないような気がしますね。表題のWeb::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)はPerlですし、こういうのを見ていると非常に便利そうです。まあLLは目的に応じて使い分けたり、他の言語だと簡単にできるのにーという処理は素直に他の言語にまかせたりするのが良いと思います。 ・参考URL PHPによるスクレイピング処理入門 HTMLScraping Class Snoopy の説明 Tidy関数