先のエントリで HTML::TreeBuilder::LibXML を紹介しましたが、HTML::TreeBuilder::XPath と、LibXML は下記のように微妙に挙動が違うので、Web::Scraper 付属の scraper コマンドも LibXML を使うように変更しました。 HTML::TreeBuilder::LibXML を使うと、こう書けない a[@href=~"http"] 代わりにこう書く a[starts-with(@href,"http")]また、User Agent によって振り分けてるページも多いので、それも scraper コマンドで対応できるように、第二引数で User Agent 文字列を指定できるようにしました。パッチは以下です。 --- /usr/bin/scraper 2009-03-25 14:33:52.000000000 +0900 +