People generally want to know how similar systems compare. We’ve done our best to fairly contrast the feature sets of Samza with other systems. But we aren’t experts in these frameworks, and we are, of course, totally biased. If we have goofed anything, please let us know and we will correct it. Spark Streaming is a stream processing system that uses the core Apache Spark API. Both Samza and Spark
こんにちは。 前回、前々回でApache Spark、Spark Streamingの概要がわかりました。 ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が 鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一段階理解を深めてみます。 読んだ論文は以下です。 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) あと、内容が理解できればいいので、全文訳というわけではありません。 Abstract 本論文において、プログラマが大規模クラスタ
こんにちは。 ようやくKinesisSpoutが一段楽したので次のネタを。 先日「データ転送ミドルウェア勉強会」が開催され、 そこでバルクデータロードツール『Embulk』が公開されました。 データのバルクロードというと、定番のOSSというのがなくて、 HDFSにバルクデータをロードする時はhadoopコマンドで行う・・などを行っていたのですが、 それがツールでできるというのは非常にありがたいですね。 で、既に使ってみた方の事例はいくつか挙がっていますので、実際にどう作られているかを見てみようと思います。 ・・・ええ、Javaでプラグインが書けるようになるまで実際に動かすかソース読むしか出来ないからですね。 1.embulkのモジュール構成 embulkのGitHubを確認してみますと、下記3つのモジュールで構成されています。 embulk-cli embulk-core embulk-s
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く