rsakamotのブックマーク / 2016年7月4日

rsakamot id:rsakamot

2016年7月4日のブックマーク (5件)

https://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
rsakamot 2016/07/04
hadoop

cloudera
リンク
storm/STORM-UI-REST-API.md at v0.9.3 · apache/storm
rsakamot 2016/07/04
storm
リンク
Samza - Spark Streaming
People generally want to know how similar systems compare. We’ve done our best to fairly contrast the feature sets of Samza with other systems. But we aren’t experts in these frameworks, and we are, of course, totally biased. If we have goofed anything, please let us know and we will correct it. Spark Streaming is a stream processing system that uses the core Apache Spark API. Both Samza and Spark
rsakamot 2016/07/04
spark

samza
リンク
Resilient Distributed Datasetsに関する論文を読んでみます（１章 - 夢とガラクタの集積場
こんにちは。前回、前々回でApache Spark、Spark Streamingの概要がわかりました。ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一段階理解を深めてみます。読んだ論文は以下です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）あと、内容が理解できればいいので、全文訳というわけではありません。 Abstract 本論文において、プログラマが大規模クラスタ
rsakamot 2016/07/04
spark
リンク
並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その１ - 夢とガラクタの集積場
こんにちは。ようやくKinesisSpoutが一段楽したので次のネタを。先日「データ転送ミドルウェア勉強会」が開催され、そこでバルクデータロードツール『Embulk』が公開されました。データのバルクロードというと、定番のOSSというのがなくて、 HDFSにバルクデータをロードする時はhadoopコマンドで行う・・などを行っていたのですが、それがツールでできるというのは非常にありがたいですね。で、既に使ってみた方の事例はいくつか挙がっていますので、実際にどう作られているかを見てみようと思います。・・・ええ、Javaでプラグインが書けるようになるまで実際に動かすかソース読むしか出来ないからですね。 1.embulkのモジュール構成 embulkのGitHubを確認してみますと、下記3つのモジュールで構成されています。 embulk-cli embulk-core embulk-s
rsakamot 2016/07/04
Embulk
リンク
- 2016年7月5日
- 2016年7月4日
- 2016年7月2日