勉強がてらamazonのベストセラーを引っ張ってきて、ジャンルごとに 商品のランキング 商品説明 商品レビュー(参考になった上位3人) を並べてHTML形式に成形する、ということをやってみた。 「引っ張ってきて」の部分はperlのWeb::Scraperモジュールを利用するのだが、スクレイピングするためには「ページのどの部分を拾ってくるか」を定義してやる必要がある。 use Web::Scraper; 今日のCPANモジュール 今回は、XPathを指定してスクレイピングすることにした。XPathの指定は上記リンクの通り、Firebugを利用してみた。 さて、このFirebugでのXPath抽出だが、amazonで試すと相当「ウソ」が返ってくることがわかった。 上記の要素を拾ってきたいとする。Firebugが返す値は /html/body/div[4]/table/tr/td[2]/div/