タグ

ブックマーク / blog.takuros.net (3)

  • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

    最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

    複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
    hrstt
    hrstt 2014/01/03
  • Amazon Linux AMIにRuby用にJenkinsをインストールする - プログラマでありたい

    HudsonもといJenkinsは昔からよく使っていますが、全くそれに関するエントリーをあげていないことに気がつきました。ということで、暫くJenkins強化週間です。まずはお決まりのインストールメモから。Java用だと一瞬で終わってしまうので、Rubyで使用することを想定しています。 RVMのインストール Amazon Linux AMIでRubyであれば、何はなくてもRVMをインストールします。yumでインストールするリポジトリについては、もう少し絞れると思います。 $ sudo su - # yum -y install git # yum -y groupinstall "Development Tools" # yum -y groupinstall "Development Libraries" # yum -y install libxslt-devel # yum -y i

    Amazon Linux AMIにRuby用にJenkinsをインストールする - プログラマでありたい
  • オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい

    Webサイトの調査をしようと思い、サイトクローラーが必要になりました。 各言語ごとに色々あるので何を使うか悩むところですが、Rubyでお手軽にということでAnemoneを採用しました。 ちなみに他の言語だと、下記のうちのどれかが良いのではないでしょうか? Java:Nutch、S2Robot Perl:Gungho 余談ですが日語で検索する場合、WEBクローラーで検索するかWEBスパイダーで検索するか悩みます。英語だとWeb SpiderかWeb Crawlerです。どちらかといえばWeb Spiderが一般的のようです。日だとWEBクローラーの方が目的のものに辿り着きやすいような気がします。うーん、悩ましい。 Anemoneのインストール手順 Anemoneは、nokogiriを使います。 nokogiriが入っていれば、すんなりインストールも出来ると思います。 ちなみにnokogi

    オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい
  • 1