タグ

ブックマーク / blog.takuros.net (5)

  • クローラーとAWSが出会ったら?第3回Webスクレイピング勉強会@東京 - プログラマでありたい

    2014/10/26に開催された第3回Webスクレイピング勉強会@東京に参加して、発表してきました。今回は、スクレイピングと少し離れてAWSを使ってクローリングするという話です。クローラー/スクレイピングAWSは相性が良いというのは、昔から思っていたのでテーマとして扱うことは早めに決めていました。しかし、話の構成を、具体的なテクニックの話にするか、概念的な話にするか、少し悩みました。なるべき多くの人に伝わるように、概念的な話をしたつもりです。具体的な部分についてはRubyによるクローラー開発技法を読んで頂ければと思いますw 発表資料 Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス from Takuro Sasaki Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス 資料の構成としては、クローリングする際の悩み

    クローラーとAWSが出会ったら?第3回Webスクレイピング勉強会@東京 - プログラマでありたい
  • あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい

    3年ほど前に、Ruby製のクローラー"anemone"を紹介しました。その当時から完成度が高く、Rubyでクローラーを使う場合はanemoneを利用してきました。最近、他に新しくて良いのがないか調べましたが、機能面の網羅性という意味でanemoneを超えるものは見つけられませんでした。そこで改めてanemoneのソースを読んでみたところ、クローラーが必要とする機能を必要最小限で実装され、やはり中々良い出来です。冬休みの宿題ではないですが、勉強の意味を兼ねてソースを追っていくことにします。 Anemoneが利用しているライブラリ一覧 anemoneが利用しているライブラリは、4種類に分類できます。 Ruby標準or一般的なライブラリ データ取得で利用しているライブラリ データ解析で利用しているライブラリ データ保存で利用しているライブラリ この分類別に構造をみるとわかりやすいので、順番に追っ

    あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい
  • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

    最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

    複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
  • GitLabのPublic AMIを公開しました。 - プログラマでありたい

    前回、GitLabのインストール手順をまとめました。しかし、手順はかなり複雑で、たぶん殆どの人がハマると思います。そもそもAWSだから誰かがAMIを作って公開したら良いのはと考えて、試しに自分のAMIをPublicで公開することにしてみました。 このAMIをPublic AMIから検索してください。 ami-b5e270b4 初期設定の仕方 AMI選択後に起動してec2-userでログインしてください。ログイン後にrootになってsetup.shを起動してください。gitlabユーザからgitにsshで接続する為の鍵と、gitoliteの設定を行います。 $ sudo su - # ./setup.sh 後は、Webでログインしてください。ID・パスワードはデフォルトの通りです。 login.........admin@local.host password......5iveL!fe お

    GitLabのPublic AMIを公開しました。 - プログラマでありたい
  • Cassandraのデータモデリング。或いはKeyspaceの設定方法 - プログラマでありたい

    ドキュメントにはサラッとしか書かれていないので、ちょっと解りにくいCassandraのデータ構造及び設定方法です。 公式ドキュメントの致命的な欠点で、データモデルのイメージ図がないので作ってみました。 (Cassandraのデータモデル - DenkiYagiさんの素晴らしいモデル図を写させて貰いました。) KeySpace まずCassandraのデータ構造で一番大きな括りに、keyspaceがあります。RDBに例えると(怒られそうですが)、スキーマやデータベースにあたります。 ColumnFamily ColumnFamilyは、テーブルに当たるものです。重要な点ですが、keypaceとColumnFamilyは、conf/storage-conf.xmlに定義されています。また現時点では、confの内容をシステムに反映させるにはシステムのリスタートが必要になります。 Key & Ro

    Cassandraのデータモデリング。或いはKeyspaceの設定方法 - プログラマでありたい
  • 1