タグ

ブックマーク / kimutansk.hatenablog.com (7)

  • Amazon KinesisとApache Kafkaの類似点/相違点まとめ - 夢とガラクタの集積場

    こんにちは。 Amazon Kinesisについて調べたり実装してみたりしたため、 モデルがよく似たApache Kafkaとの類似点や相違点が気になってきました。 というわけで、実際比べてみた結果どうだったのかをまとめてみます。 1.2つのプロダクトの類似点 Amazon KinesisとApache Kafkaの大きな類似点として、以下があります。 1.メッセージを取得したタイミングで削除するのではなく、一定期間経過後に削除するモデルを取っている Kestrel、RabbitMQといったプロダクトはメッセージを取得され、利用側から応答が返った段階で削除するモデルを取っている。 「メッセージキュー」と言いあらわした場合、削除するモデルの方がイメージ的には近い? Amazon Kinesis、Apache Kafkaはメッセージの提供を行うのみで削除は行わない。一定時間経過後に削除している

    Amazon KinesisとApache Kafkaの類似点/相違点まとめ - 夢とガラクタの集積場
    yass
    yass 2013/12/28
    " IRecordProcessorを継承したアプリを作成することで、DynamoDB上に自動的に保存。/ IRecordProcessorを利用する場合は1スレッドで1パーティション分しかデータを取得できない。"
  • Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場

    こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、 いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。 ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。 とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。 そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し

    Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場
  • TwitterでつぶやいたStormの雑多な情報まとめ(その3 - 夢とガラクタの集積場

    こんにちは。 #stormjp のタグでStormの雑多な情報まとめその3です。 段々前置きとかが思いつかなくなってきましたが、とりあえず入ります^^; ○19.StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』 アプリケーションが構築可能。 Kestrelは「Transaction」という仕組みを持っており、 ackが返されなかったメッセージは一定時間でメッセージを復旧させるため。 そのため、Storm側で成功したらackを返し、失敗/タイムアウトしたらfailを返すように Kestrelとやり取りをすればOK。 上記の動作をする雛形はStorm-Kestrelにある。 ○20.Nimbus、Supervisor、workerは各々ローカルに一時ファイルを出力する。 出力先は【STORM_HOME】ディレクトリ配

    TwitterでつぶやいたStormの雑多な情報まとめ(その3 - 夢とガラクタの集積場
    yass
    yass 2013/09/29
    " StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』アプリケーションが構築可能。Kestrelは / ackが返されなかったメッセージは一定時間でメッセージを復旧 "
  • TwitterでつぶやいたStormの雑多な情報まとめ(その8 - 夢とガラクタの集積場

    こんにちは。 #stormjp のタグでStormの雑多な情報まとめその7です。 段々、終わりが見えてきたような感はありますw ○81.Stormクラスタ自体のアップデートは起動しっぱなしでは無理。 安全確実を期すなら下記のフロー。 1.Topology全部落とす 2.Storm-Nimbus、UI、Supervisorを落とす 3.ZK上とローカルのファイルを全部削除 4.Storm-Nimbus、UI、Supervisorを再起動 尚、Stormにとっては動作しながらのクラスタ自体のアップデートへ対応する優先度は低い。 ○82.storm.yamlのworker.childoptsでWorkerプロセス起動時のJVM引数を指定できるが、 その際「%ID%」と指定すればWorkerプロセスのIDに置換されて実行される。 83.LinearDRPCですとSpout/Boltの生成タイミング

    TwitterでつぶやいたStormの雑多な情報まとめ(その8 - 夢とガラクタの集積場
    yass
    yass 2013/09/29
    " Ackerの中では子TupleのAckIDは全体で一つのlong値しか保持せず、  子TupleのAckを受信するごとにAckIDの排他的論理和を計算していく形を取る。  結果が全て0bitとなれば、子Tupleは全て処理されたと判定される。"
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
    yass
    yass 2013/09/01
    "Resilient Distributed Datasetsは以下の性質を持つ / イミュータブルで分割されたオブジェクトのコレクション / 並列処理(map, filter, groupBy, join)をストレージ上のデータに適用した結果生成 / 再利用するためにメモリ上にキャッシュ"
  • Apache Kafka 概要(Design)和訳まとめ - 夢とガラクタの集積場

    こんにちは。ようやく1ページ全てまとめ終わったので、 最後にまとめ投稿として投稿しておきます。 尚、ページは下記です。 http://kafka.apache.org/07/design.html ========== 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingをパイプライン式に繋ぐために開発されたプロダクト。 最近はTumblr、DataSiftといった企業でも使用されている。 → SNSや、複数のサービスの情報を統合するようなシステムで使われているようです。 ここでいうActivity Streamとは Webページで閲覧、検索、リンク設定などを行う活動全般を指す。 これらのデータは通常のシステムならば、ログファイルとして出力し、後で別途解析に用いられる。 もう一つ言葉を定義する。 Operational

    Apache Kafka 概要(Design)和訳まとめ - 夢とガラクタの集積場
  • SSDで安価なクラウドサービス、DigitalOceanの性能を確認してみました - 夢とガラクタの集積場

    こんにちは。 全く前回から繋がりがなくて微妙ですが、やっていたことを。 SSDのクラウドサービス、DigitalOceanを試してみました。 ・・・え?全く脈絡ないって? 1.そもそも、何故使おうと思ったの? 元々は1か月ほど前にFacebookで流れていた下記の画像が発端でした。 ・・・ただ、見たはいいものの、完全に忘れて数週間が経過してしまいました(汗 その後、下記のPodcastでもう1回DigitalOceanについて話が出たので、 では使ってみよう、ということで思い立ったが吉日、アカウントを作成してみたわけですね。 Tatsuhiko Miyagawa's Podcast Podcast ep2 2013/02/19 ゲスト Kenn Ejima 2.DigitalOceanって? SSDのサーバに仮想マシンをデプロイするクラウドサービスです。 料金プランは安い方からいくつか挙げ

    SSDで安価なクラウドサービス、DigitalOceanの性能を確認してみました - 夢とガラクタの集積場
  • 1