タグ

scrapingに関するhayato34のブックマーク (2)

  • Webクローラフレームワーク Anemone の紹介

    はじめに Anemoneはrubyで作られたWebクローラフレームワークです。実行した環境は Max OS X 10.6 です。 特徴は The multi-threaded design makes Anemone fast. The API makes it simple. And the expressiveness of Ruby makes it powerful です。 意訳するとマルチスレッド対応でAPIがシンプルなとことが売りという感じでしょうか。 クライアントのプログラムがシンプルに記述出来てCLIで実行出来るので他の(言語の)プログラムとの連携が取りやすい所が気に入り試してみる事にしました。 紹介記事:クローラーを作るためのフレームワーク「Anemone」 Anemoneのインストール $ gem install anemone lxml,lxslt2 関連でエラーが出

  • Ruby Scraping - Hpricot/Showcase

    Hpricot RubyHTMLを解析するためのライブラリHpricotの使い方まとめです。 書きかけです。 AnHPricotShowcaseを ベースにしていますが、改変したり省略している箇所も結構あります。 Basics ライブラリのロード HTMLを開く(Hpricot) 要素を探す(search, /) 要素を一つだけ探す 要素の中身のHTMLを得る(inner_html) 要素のタグを含めたHTMLを得る(to_html) 繰り返し(Elements#each) 要素の中を検索する(search, /) HTMLを編集する(set) 要素のパス名を得る(css_path, xpath) Elements 複数の要素の中を検索する Elements#at( expression, &block ) Elements#search( expression, &block ) 複数

  • 1