yassのブックマーク - はてなブックマーク

Amazon KinesisとApache Kafkaの類似点／相違点まとめ - 夢とガラクタの集積場

こんにちは。 Amazon Kinesisについて調べたり実装してみたりしたため、モデルがよく似たApache Kafkaとの類似点や相違点が気になってきました。というわけで、実際比べてみた結果どうだったのかをまとめてみます。 1.2つのプロダクトの類似点 Amazon KinesisとApache Kafkaの大きな類似点として、以下があります。 1.メッセージを取得したタイミングで削除するのではなく、一定期間経過後に削除するモデルを取っている Kestrel、RabbitMQといったプロダクトはメッセージを取得され、利用側から応答が返った段階で削除するモデルを取っている。「メッセージキュー」と言いあらわした場合、削除するモデルの方がイメージ的には近い？ Amazon Kinesis、Apache Kafkaはメッセージの提供を行うのみで削除は行わない。一定時間経過後に削除している

yass 2013/12/28

" IRecordProcessorを継承したアプリを作成することで、DynamoDB上に自動的に保存。/ IRecordProcessorを利用する場合は1スレッドで1パーティション分しかデータを取得できない。"

リンク

Hadoop YARNとApache Mesosの違いって何？ - 夢とガラクタの集積場

こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し

yass 2013/12/10

リンク

TwitterでつぶやいたStormの雑多な情報まとめ（その３ - 夢とガラクタの集積場

こんにちは。 #stormjp のタグでStormの雑多な情報まとめその３です。段々前置きとかが思いつかなくなってきましたが、とりあえず入ります＾＾； ○19.StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』アプリケーションが構築可能。 Kestrelは「Transaction」という仕組みを持っており、 ackが返されなかったメッセージは一定時間でメッセージを復旧させるため。そのため、Storm側で成功したらackを返し、失敗／タイムアウトしたらfailを返すように Kestrelとやり取りをすればＯＫ。上記の動作をする雛形はStorm-Kestrelにある。 ○20.Nimbus、Supervisor、workerは各々ローカルに一時ファイルを出力する。出力先は【STORM_HOME】ディレクトリ配

yass 2013/09/29

" StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』アプリケーションが構築可能。Kestrelは / ackが返されなかったメッセージは一定時間でメッセージを復旧 "

リンク

TwitterでつぶやいたStormの雑多な情報まとめ（その８ - 夢とガラクタの集積場

こんにちは。 #stormjp のタグでStormの雑多な情報まとめその７です。段々、終わりが見えてきたような感はありますｗ ○81.Stormクラスタ自体のアップデートは起動しっぱなしでは無理。安全確実を期すなら下記のフロー。１．Topology全部落とす２．Storm-Nimbus、UI、Supervisorを落とす３．ZK上とローカルのファイルを全部削除４．Storm-Nimbus、UI、Supervisorを再起動尚、Stormにとっては動作しながらのクラスタ自体のアップデートへ対応する優先度は低い。 ○82.storm.yamlのworker.childoptsでWorkerプロセス起動時のJVM引数を指定できるが、その際「%ID%」と指定すればWorkerプロセスのIDに置換されて実行される。 83.LinearDRPCですとSpout/Boltの生成タイミング

yass 2013/09/29

" Ackerの中では子TupleのAckIDは全体で一つのlong値しか保持せず、　子TupleのAckを受信するごとにAckIDの排他的論理和を計算していく形を取る。　結果が全て0bitとなれば、子Tupleは全て処理されたと判定される。"

リンク

Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張

yass 2013/09/01

"Resilient Distributed Datasetsは以下の性質を持つ / イミュータブルで分割されたオブジェクトのコレクション / 並列処理(map, filter, groupBy, join)をストレージ上のデータに適用した結果生成 / 再利用するためにメモリ上にキャッシュ"

リンク

Apache Kafka 概要（Design）和訳まとめ - 夢とガラクタの集積場

こんにちは。ようやく１ページ全てまとめ終わったので、最後にまとめ投稿として投稿しておきます。尚、ページは下記です。 http://kafka.apache.org/07/design.html ＝＝＝＝＝＝＝＝＝＝ 1.何故Kafkaは作られたのか？元々はLinkedInのActivity StreamとData Processingをパイプライン式に繋ぐために開発されたプロダクト。最近はTumblr、DataSiftといった企業でも使用されている。 →　SNSや、複数のサービスの情報を統合するようなシステムで使われているようです。ここでいうActivity Streamとは Webページで閲覧、検索、リンク設定などを行う活動全般を指す。これらのデータは通常のシステムならば、ログファイルとして出力し、後で別途解析に用いられる。もう一つ言葉を定義する。 Operational

yass 2013/05/23

kafka
queue

リンク

SSDで安価なクラウドサービス、DigitalOceanの性能を確認してみました - 夢とガラクタの集積場

こんにちは。全く前回から繋がりがなくて微妙ですが、やっていたことを。 SSDのクラウドサービス、DigitalOceanを試してみました。・・・え？全く脈絡ないって？ 1.そもそも、何故使おうと思ったの？元々は１か月ほど前にFacebookで流れていた下記の画像が発端でした。・・・ただ、見たはいいものの、完全に忘れて数週間が経過してしまいました（汗その後、下記のPodcastでもう１回DigitalOceanについて話が出たので、では使ってみよう、ということで思い立ったが吉日、アカウントを作成してみたわけですね。 Tatsuhiko Miyagawa's Podcast Podcast ep2 2013/02/19 ゲスト Kenn Ejima 2.DigitalOceanって？ SSDのサーバに仮想マシンをデプロイするクラウドサービスです。料金プランは安い方からいくつか挙げ

yass 2013/03/01

リンク

はてなブックマーク

タグ

ブックマーク / kimutansk.hatenablog.com (7)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス