大元はこちらで、 Webページの本文抽出 (nakatani @ cybozu labs) Ruby1.9対応され、gemになったものがこちら。 mono0x/extractcontent Bundlerを使ってリポジトリ指定でインストールできます。 gem 'extractcontent', :git => 'https://github.com/mono0x/extractcontent.git'☄ 使い方 html = open(url).read body, title = ExtractContent.analyse(html) これだけでタイトルと本文を持ってきてくれます。精度も悪くなさそう。 HTMLタグを残したい 純粋に文章のみを残すという作りになっているため、抽出された本文からはHTMLタグがなくなっています。画像も無くなってしまいます。 少し話がそれますが、この本文抽出