タグ

ブックマーク / mono.kmc.gr.jp/~yhara (5)

  • Ruby Scraping - Nokogiri

    @@ -8,7 +8,7 @@ ! 機能 :[[Nokogiri/search]]: XML/HTML要素の検索 -:[[Nokogiri/Document]]: +:[[Nokogiri/Node]]: XML/HTMLノードに対する操作 :[[Nokogiri/Builder]]: Rubyのブロックを使ったXML/HTML生成機能 :[[Nokogiri/SAX]]: SAXスタイルのXML/HTMLパーサ :[[Nokogiri/Reader]]: メモリからXMLを読み込む(?)

    yuiseki
    yuiseki 2008/12/30
  • Ruby Scraping - Hpricot::Traverse

    あるノード内を探索するモジュール。全てのノードに有効。 インスタンスメソッド 要素の検索 /(expr, &blk) search(expr, &blk) 文字列exprで指定したCSSセレクタ/XPathにマッチする要素の配列を返す。ブロックを与えたときは、マッチする要素を順に渡してブロックを実行する。 %(expr) at(expr) 文字列exprで指定したCSSセレクタ/XPathにマッチする最初の要素を返す。 previous_node() この要素の前の兄弟ノードを返す。タグでないもの(テキスト、コメント、CDATAなど)も含む。それらを除きたいときはprevious_sibling()を使うこと。 next_node() この要素の次の兄弟ノードを返す。タグでないもの(テキスト、コメント、CDATAなど)も含む。それらを除きたいときはnext_sibling()を使うこと

    yuiseki
    yuiseki 2008/12/01
  • Ruby Scraping - Mechanize

    自動google検索。 require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new # インスタンス生成 agent.user_agent_alias = 'Mac Safari' # User-Agentの設定 page = agent.get('http://www.google.com/') # ページ取得 search_form = page.forms.with.name('f').first # "f"という名前のフォームを探す search_form.q = 'Hello' # テキストボックス"q"に"Hello"を入力 search_results = agent.submit(search_form) # フォームのsubmitボタンを押す puts search_results.body # 結果

    yuiseki
    yuiseki 2008/10/27
  • Ruby Scraping - Hpricot

    あるページのリンク (aタグ) を全て抜き出すスクリプト。 require 'hpricot' require 'open-uri' doc = Hpricot( open("http://www.kmc.gr.jp/").read ) (doc/:a).each do |link| puts "#{link.inner_html} → #{link[:href]}" end

  • Ruby Scraping - FrontPage

    RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 HpricotHTMLを「Rubyらしく」扱うライブラリ MechanizeWebサイトへ自動でアクセスするためのライブラリ scRUBYt!DSLを使って簡単にスクレイピングを行うライブラリ feedalizerhtmlからRSSフィードを作るのに役立つライブラリ scrAPIパーサを定義することでHTMLを解析するライブラリ ウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る) ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。 例: RSSを配信していないウェブサイトのHTMLスクレイピングして野良RSSを作る Googleの検索結果をスクレイピングして自動でGoogle検索するスクリプトを書く ブログの投稿ページを解析して、コマンドラインから

  • 1