タグ

ブックマーク / shunlp.blogspot.com (1)

  • shunlp: hpricotいい。

    月曜日, 1月 15, 2007 hpricotいい。 htmlの解析にhpricotというライブラリを使用していますが、これは使いやくてかなりいい感じです。(正直、このぐらい使いやすいライブラリを自分でもかけるようになりたいって思った。。)普通のhtmlでも、XPathを使用できるので、抜き出したい部分を簡単に取れます。 gemにもなっているので、 gem install hpricot でさくっとインストールできます。 一例として、リンクの一覧を取得するスクリプトを書きました。href属性のみでなく、<a>...</a>で囲まれているテキストも取得します。(Yahoo!Japanのトップページは、EUCなので、$KCODE='e'を指定しています。) $KCODE='e' require 'rubygems' require 'hpricot' require 'open-uri' r

  • 1