タグ

scrapingに関するakio0911のブックマーク (2)

  • File: README

    scRUBYt! - Hpricot and Mechanize on steroids A simple to learn and use, yet very powerful web extraction framework written in Ruby. Navigate through the Web, Extract, query, transform and save relevant data from the Web page of your interest by the concise and easy to use DSL. Do you think that Mechanize and Hpricot are powerful libraries? You‘re right, they are, indeed - hats off to their authors

    akio0911
    akio0911 2008/02/02
    'A simple to learn and use, yet very powerful web extraction framework written in Ruby.'
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    akio0911
    akio0911 2008/01/29
    'scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの'
  • 1