RubyのHTMLを解析するパーサはいろいろありますが、今回は hpricot を使ってみました。 gemでインストールできるので簡単。 サンプル。 require 'rubygems' require 'hpricot' doc = Hpricot(%{<a class=l href="hogehoge">bar</a>baz}) doc.search("a").map {|i| [ i['href'], i.inner_html ] } #=> [["hogehoge", "bar"], ["foo", "baz"]] HTMLページの読み込み doc = Hpricot("<p>A simple <b>test</b> string.</p>") open-uriを使えばこんな風にURL先のHTMLを取得できます。 require 'open-uri' doc = Hpricot(o