yuisekiのブックマーク - はてなブックマーク

yuiseki id:yuiseki

ブックマーク / mono.kmc.gr.jp/~yhara (5)

Ruby Scraping - Nokogiri
@@ -8,7 +8,7 @@ ! 機能 :[[Nokogiri/search]]: XML/HTML要素の検索 -:[[Nokogiri/Document]]: +:[[Nokogiri/Node]]: XML/HTMLノードに対する操作 :[[Nokogiri/Builder]]: Rubyのブロックを使ったXML/HTML生成機能 :[[Nokogiri/SAX]]: SAXスタイルのXML/HTMLパーサ :[[Nokogiri/Reader]]: メモリからXMLを読み込む(?)
yuiseki 2008/12/30
リンク
Ruby Scraping - Hpricot::Traverse
あるノード内を探索するモジュール。全てのノードに有効。インスタンスメソッド要素の検索 /(expr, &blk) search(expr, &blk) 文字列exprで指定したCSSセレクタ/XPathにマッチする要素の配列を返す。ブロックを与えたときは、マッチする要素を順に渡してブロックを実行する。 %(expr) at(expr) 文字列exprで指定したCSSセレクタ/XPathにマッチする最初の要素を返す。 previous_node() この要素の前の兄弟ノードを返す。タグでないもの(テキスト、コメント、CDATAなど)も含む。それらを除きたいときはprevious_sibling()を使うこと。 next_node() この要素の次の兄弟ノードを返す。タグでないもの(テキスト、コメント、CDATAなど)も含む。それらを除きたいときはnext_sibling()を使うこと
yuiseki 2008/12/01
リンク
Ruby Scraping - Mechanize
自動google検索。 require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new # インスタンス生成 agent.user_agent_alias = 'Mac Safari' # User-Agentの設定 page = agent.get('http://www.google.com/') # ページ取得 search_form = page.forms.with.name('f').first # "f"という名前のフォームを探す search_form.q = 'Hello' # テキストボックス"q"に"Hello"を入力 search_results = agent.submit(search_form) # フォームのsubmitボタンを押す puts search_results.body # 結果
yuiseki 2008/10/27
リンク
Ruby Scraping - Hpricot
あるページのリンク (aタグ) を全て抜き出すスクリプト。 require 'hpricot' require 'open-uri' doc = Hpricot( open("http://www.kmc.gr.jp/").read ) (doc/:a).each do |link| puts "#{link.inner_html} → #{link[:href]}" end
yuiseki 2008/05/29
ruby

hpricot
リンク
Ruby Scraping - FrontPage
RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 HpricotHTMLを「Rubyらしく」扱うライブラリ MechanizeWebサイトへ自動でアクセスするためのライブラリ scRUBYt!DSLを使って簡単にスクレイピングを行うライブラリ feedalizerhtmlからRSSフィードを作るのに役立つライブラリ scrAPIパーサを定義することでHTMLを解析するライブラリウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る) ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。例： RSSを配信していないウェブサイトのHTMLをスクレイピングして野良RSSを作る Googleの検索結果をスクレイピングして自動でGoogle検索するスクリプトを書くブログの投稿ページを解析して、コマンドラインから
yuiseki 2008/05/29
ruby

hpricot

scraping

まとめ
リンク
1