この記事は前回の続きです。 curl とxpath でお手軽スクレイピング 前回までで、xpath + curl + cookie を使いました。 xpath はとても便利なので、基本的な使い方を再掲しておきます。(以前にまとめたもののですが) xpath 内容 //* 全てのノード //a 全ての<a> ノード (//a)[1] 全ての<a> ノードを取得して、最初の1個 (//a)[2] 全ての<a> ノードを取得して、2番め(配列アクセス) (//a[1]) 親ノード中の最初の1個の<a>をすべて //a/span span ノードで、親が<a>のものをすべて //a/@href aノードのすべてのhref属性 //a/text() aノードのすべてのtext()表現 //a[@href="/index.html"] aノードのうち href属性が"/index.html"と合致する