タグ

MongoDBとanemoneに関するyuisekiのブックマーク (2)

  • Webクローラフレームワーク Anemone の紹介

    はじめに Anemoneはrubyで作られたWebクローラフレームワークです。実行した環境は Max OS X 10.6 です。 特徴は The multi-threaded design makes Anemone fast. The API makes it simple. And the expressiveness of Ruby makes it powerful です。 意訳するとマルチスレッド対応でAPIがシンプルなとことが売りという感じでしょうか。 クライアントのプログラムがシンプルに記述出来てCLIで実行出来るので他の(言語の)プログラムとの連携が取りやすい所が気に入り試してみる事にしました。 紹介記事:クローラーを作るためのフレームワーク「Anemone」 Anemoneのインストール $ gem install anemone lxml,lxslt2 関連でエラーが出

  • 【Ruby】クローラーフレームワークAnemoneのStorageにMongoDBを使う | ITベンチャーで働くエンジニアのメモ帳

    お久しぶりです。 自社サイトのリニューアルに集中して、すっかりアウトプットを怠ってしまっていました。 友人に生きてるのかと心配されるほど静かでしたが 生きています。息してます。 もうブログの更新も1ヶ月とまっていたんですね さて、今回は前回のエントリ【Ruby】サイトをクロールするライブラリAnemoneをインストールして動かしてみる (07/26)でも紹介したAnemoneについて書きたいと思います。 以前紹介したデフォルトの方法だとクロールしている過程のデータ(ページの内容とかURLとか)はメモリ、つまり普通のハッシュにのせて処理を進めていきます。 クロールするページが増えれば増えるほどメモリリソースを使ってしまって途中でプロセスがささるという現象にたびたび困っていました。 Anemoneに処理の内容を別のストレージ(mongodbやtokyocabinetなど)を利用することが出来る

    【Ruby】クローラーフレームワークAnemoneのStorageにMongoDBを使う | ITベンチャーで働くエンジニアのメモ帳
  • 1