http://github.com/tokuhirom/html--treebuilder--libxml/tree/masterWeb::Scraper で複雑な HTML をパーズしようとすると、HTML::TreeBuilder::XPath がボトルネックになることが知られており、Web::Scraper には libxml ブランチが存在する(http://d.hatena.n... 続きを読む
Web::Scraperのshellでhistory補完 シェル | Web::Scraperのshellをhistoryから補完できるようにしてみました。 shell系は使わないと忘れてしまうので、historyがあったほうがいいかなと思って作ってみました。 ~/.scraperhistoryを作っておくと、historyが使え... 続きを読む
まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取... 続きを読む
AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがある... 続きを読む