ExtractContent を使えばいい。 Webページの本文抽出 (nakatani @ cybozu labs) ただ、上の記事の ExtractContent は Ruby1.9 以上では動かなかった。正規表現エンジンが変わったからね…。 無ければ自分で修正することを前提に、GitHub で探したら、案の定 1.9 対応版を発見した。 mono0x/extractcontent 試しにこれを使ってみよう。 Gemfile に gem "extractcontent", github: "mono0x/extractcontent" を追加し、bundle でインストール。 使い方は簡単で、本文を抽出したい HTML を ExtractContent.analyse メソッドに渡すだけ。タイトルと本文が返ってきた。 # coding: utf-8 require "open-uri"
![Ruby で Web ページの本文を抽出する方法 - present](https://cdn-ak-scissors.b.st-hatena.com/image/square/0b421bf59fb05d9147f35bf01ed3fb2110623aa3/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fg%2Fgriefworker%2F20130630%2F20130630120833.png)