タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

rubyとscrapingとcrawlerに関するclavierのブックマーク (3)

  • クローラー開発勉強会を行いました - 40歳からのキャリアチェンジ

    昨日ですが、いつもお世話になってるCo-Edoで第1回クローラー開発勉強会を行いました。 クローラー開発というニッチなテーマのものをなぜ開催しようと思ったのかというと モバイラーズオアシスの中の人であるもぎゃさんから、モバイラーズオアシスで使っていたスクレイピングライブラリについてちょっと意見を聞かせて欲しいっていう話をメッセでもらった 実際にCo-Edoで会ってもぎゃさんと色々とクローラーの話をしてたら、互いにあるあるネタが結構満載で、きっと似たような経験ある人が他にもいるんじゃね?っていう感じになり、それなら何かイベントしましょう っていうのがきっかけでした。 発表資料など もぎゃさんの発表資料はこちら 昨日は時間の都合で技術的な深いところは触れなかったので、そちらについて深く知りたい方むけのスライドとして実践スクレイピングを紹介されてました 自分はこちら 昨日気づいたけどSlideS

    クローラー開発勉強会を行いました - 40歳からのキャリアチェンジ
  • Mechanizeによるスクレイピングの基本的なことまとめ - そのねこが学ぶとき

    Exhibiの内部的な話を書こう書こうと思って忘れてた。とりあえずMechanizeについて。 Mechanizeはスクレイピングを楽にしてくれるRubygemsです。ExhibiではMechanizeを使ったスクレイピングのRakeタスクを作成し、それを日次で実行することで、各美術館のサイトから展覧会情報を抽出しています。抽出した情報がDB内に存在していれば無視。存在しないのならDBに追加。こういうクローリングに関しては、ちょうど時同じくしてRubyのクロール入門が去年出たんですけど未読です。技術的な話のみならず、人様のサイトへ機械的にアクセスする際のお作法的なことも載っているらしく、いつかは読みたいところ。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例posted with amazlet at 15.02.07るびきち 佐々木 拓郎 SBクリエイティブ 売り

    Mechanizeによるスクレイピングの基本的なことまとめ - そのねこが学ぶとき
    clavier
    clavier 2015/02/10
    Mechanizeによるスクレイピングの基本的なことまとめ - そのねこが学ぶとき
  • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

    最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

    複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
  • 1