hanamgriとは、さまざまなレイアウトのウェブページから特定のデータを抽出するサービスです。webサイトの構成やレイアウトを意識することなく「欲しい項目」「欲しい項目の周辺にありそうなキーワード」「欲しい情報がありそうなURL」をhanamgriに渡すだけで利... 続きを読む
Sign in or create an account Help Hello! This is the beta version of ScraperWiki, please tell us what you think. ScraperWiki is all the tools you need for Screen Scraping & Data Mining. Make bad data good, collaborate & discover new datasets.... 続きを読む
An easy-to-use Ruby web spider framework What is it? Anemone is a Ruby library that makes it quick and painless to write programs that spider a website. It provides a simple DSL for performing actions on every page of a site, skipping certain... 続きを読む
Net::HTTPは内部でTimeoutを利用しているけども、これのエラー補足までの面倒は見てくれない。なので必ずrescueで補足してあげる必要がある。 begin Net::HTTP.get(url) rescue puts "exception on HTTP: #{$!}" end ・・・と安直にやりたいところだけれど、こ... 続きを読む
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計... 続きを読む
Table of Contents Introduction Why Firequark? XPath vs. CSS Selector Find CSS Selector manually Bundle Scraping Usage - screencast Installation Documentation Todo Firequark is an extension to Firebug to aid the process of HTML Screen Scraping... 続きを読む
RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 HpricotHTMLを「Rubyらしく」扱うライブラリ MechanizeWebサイトへ自動でアクセスするためのライブラリ scRUBYt!DSLを使って簡単にスクレイピングを行うライブラリ feedalizerhtmlからRSSフ... 続きを読む