Hpricot RubyでHTMLを解析するためのライブラリHpricotの使い方まとめです。 書きかけです。 AnHPricotShowcaseを ベースにしていますが、改変したり省略している箇所も結構あります。 Basics ライブラリのロード HTMLを開く(Hpricot) 要素を探す(search, /) 要素を一つだけ探す 要素の中身のHTMLを得る(inner_html) 要素のタグを含めたHTMLを得る(to_html) 繰り返し(Elements#each) 要素の中を検索する(search, /) HTMLを編集する(set) 要素のパス名を得る(css_path, xpath) Elements 複数の要素の中を検索する Elements#at( expression, &block ) Elements#search( expression, &block ) 複数
■ [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。 どちらも非常に強力なので、覚えておいて損はないよ! 以下ではまずHpricotでHTMLを解析・編集する方法について解説します。 次に、「はてなダイアリーの自動更新」を例にWWW::Mechanizeの使い方を解説します。 Hpricot HpricotはHTMLを解析するためのライブラリです。 例えば「あるページのリンクだけを全部抜き出したい」と思ったとき、どうしますか?scrAPIを使う?でもscrAPIはやっぱり ちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね! Hpricotなら、たったこれだけで
RubyのHTMLを解析するパーサはいろいろありますが、今回は hpricot を使ってみました。 gemでインストールできるので簡単。 サンプル。 require 'rubygems' require 'hpricot' doc = Hpricot(%{<a class=l href="hogehoge">bar</a>baz}) doc.search("a").map {|i| [ i['href'], i.inner_html ] } #=> [["hogehoge", "bar"], ["foo", "baz"]] HTMLページの読み込み doc = Hpricot("<p>A simple <b>test</b> string.</p>") open-uriを使えばこんな風にURL先のHTMLを取得できます。 require 'open-uri' doc = Hpricot(o
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く