最近,RubyのWWW::Mechanizeで遊んでいます. WWW::Mechanizeは内部的にHpricot(HTML文書スクレイパ)を使っており,WWW::Mechanize経由でHpricotにsearchメソッドなどを送れるわけですが,このときにXPath式を渡すことで,目的の部分のHTML要素を得ることができます.これがまた気分爽快.たとえばこんな感じに使えます:: #!/usr/bin/ruby # Yahoo! Newsのヘッドラインを抜き出す require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new page = agent.get('http://headlines.yahoo.co.jp/hl') headline = page/'//h1[@class="yjXL"]/a' # '/'はse