こんにちは。 Resilient Distributed Datasetsに関する論文 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) について、概念と動作概要が書かれた1章〜5章を読んだので、1投稿にまとめます。 基本的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基本的には全データに対して同じ演算を行う」アプリケーションにおいては 読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで 一貫性考慮が簡略