タグ

Hpricotに関するkakkyz81のブックマーク (3)

  • pylori*style wiki - HTMLパーサ Hpricot

    Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いてきます。Unix系OSであれば 1 を、mswin32 であれば 2 を選びます。 Select which gem to install for your platform (i386-freebsd6) 1. hpricot 0.4 (ruby) 2. hpricot 0.4 (mswin32) 3. Cancel installation コンパイルが始まり、インストールが行われます。 Building native extensions. This could take a while.

    kakkyz81
    kakkyz81 2007/03/06
    wiki
  • それHpricot(ry - walf443's blog

    あまりしっかり読んでなくてスルーしていたのですが, http://wota.jp/ac/?date=20070115#p01 で使われているような特定のページにCSSセレクタをかけるようなケースならまさにHpricotが適任だと思います。 ScrAPIの良いところはむしろ簡単にParser用のクラスを分かりやすく書けるところにあると思うので大量のページをクロールして定型のデータを貯めたりしようとする際にはあのAPIがいいなぁと思います。 ということで上のページと同じことをHpricotでやってみます。 require 'kconv' #=> true require 'open-uri' #=> true require 'hpricot' # 以下の例はversion 0.5以上を想定してます #=> true $KCODE = 'u' #=> "u" maiha = Hpricot.p

    それHpricot(ry - walf443's blog
  • [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize - Greenbear Diary (2007-02-05)

    ■ [ruby] RubyHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。 どちらも非常に強力なので、覚えておいて損はないよ! 以下ではまずHpricotでHTMLを解析・編集する方法について解説します。 次に、「はてなダイアリーの自動更新」を例にWWW::Mechanizeの使い方を解説します。 Hpricot HpricotはHTMLを解析するためのライブラリです。 例えば「あるページのリンクだけを全部抜き出したい」と思ったとき、どうしますか?scrAPIを使う?でもscrAPIはやっぱり ちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね! Hpricotなら、たったこれだけで

    [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize - Greenbear Diary (2007-02-05)
    kakkyz81
    kakkyz81 2007/02/27
    MecanizeとHpricot
  • 1