タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

rubyとscrapingとcapybaraに関するclavierのブックマーク (3)

  • Capybara+PhantomJS+Nokogiriを利用してスクレイピング - プログラマでありたい

    CapybaraとPhantomJS、Nokogiriを利用してのクローラー・スクレイピングの紹介です。 PhantomJSとは? PhantomJSは、ヘッドレスブラウザと呼ばれるWebKitのエミュレータです。ヘッドレスブラウザとは、GUIではなくCUIから利用できるブラウザでプログラムから呼ばれます。UIのテストツールとしてSeleniumのようなサービスがあります。Seleniumはブラウザを直接操作するので、環境依存や動作が重いといった幾つかの問題点があります。そこでよく利用されるのがPhantomJSです。Seleniumに比べて、軽量というメリットがあります。RubyからPhantomJSを扱うライブラリとして、Poltergeistがあります。 Capybaraとは? Capybaraは、WebシステムのUI層のテストをサポートするためのライブラリです。主にDSL機能とDr

    Capybara+PhantomJS+Nokogiriを利用してスクレイピング - プログラマでありたい
  • Rubyで経済指標自動巡回プログラム作成しました。 - 人生、徒然なるままに。

    スクリプト言語、Rubyを使って経済指標の自動巡回プログラムを作りました。2014年のRubyの締めとして公開。 経済指標との出会い 表題の通り、rubyの勉強がてら、経済指標巡回プログラムを作ってみました! 経済指標って何ぞ?っていう人もいると思いますが、米FOMC政策金利発表や雇用統計の発表など世界中の為替や株の値動きに直結するような日々のイベントのことですね! 「日1ドル122円まで急落し・・・」とかテレビで言ってますが、 そのきっかけとなるのが経済指標の発表となることもあります。 そんな経済指標の発表時間・重要度などは各証券会社などのHPに載っていますが、 毎日見ていくのは面倒!ということで自動で集めてデータベースに保管してくれるプログラム作ることを決意。 photo by timaoutloud 丁度その頃、屋でこんなを発見。 Rubyによるクローラー開発技法 巡回・解析機

    Rubyで経済指標自動巡回プログラム作成しました。 - 人生、徒然なるままに。
  • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

    最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

    複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
  • 1