タグ

WebとAnemoneに関するmikurassのブックマーク (3)

  • Anemoneで手軽にクロール | degoo*memo

    クローラ開発してみようと思い、適当にググってみたんだけど情報少ない。 とりあえずJavaのNutchがメジャーなのかな?ってのは把握。 そもそもクローラとスパイダーっていう用語もどっちがメジャーなんだろ。 そんななか見つけたのが、Ruby のクローラフレームワークなるAnemone。 お手軽そうだったので、Anemone使ってはじめてのクローラ作ってみるよ。 ・インストール gem install anemone おわりー。 ・ スクレイプしてみる 今回のスクレイプ対象はiddy API。 まぁなんでもいいんだけどね。 ユーザのプロフィールURLをがさっと削りとってみる。 $KCODE = 'u' require 'rubygems' require 'anemone' #anemoneにメソッド追加 module Anemone class Page def doc4xml r

  • Webクローラフレームワーク Anemone の紹介

    はじめに Anemoneはrubyで作られたWebクローラフレームワークです。実行した環境は Max OS X 10.6 です。 特徴は The multi-threaded design makes Anemone fast. The API makes it simple. And the expressiveness of Ruby makes it powerful です。 意訳するとマルチスレッド対応でAPIがシンプルなとことが売りという感じでしょうか。 クライアントのプログラムがシンプルに記述出来てCLIで実行出来るので他の(言語の)プログラムとの連携が取りやすい所が気に入り試してみる事にしました。 紹介記事:クローラーを作るためのフレームワーク「Anemone」 Anemoneのインストール $ gem install anemone lxml,lxslt2 関連でエラーが出

  • クローラーを作るためのフレームワーク·Anemone MOONGIFT

    RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

    クローラーを作るためのフレームワーク·Anemone MOONGIFT
  • 1