Apache Spark の RDD について。 RDDの基本 耐障害性分散データセットであるRDD(Resilient Distributed Dataset)の特徴は以下の通りです。 イミュータブルなオブジェクトの分散コレクションである。 復数のパーティションに分割されクラスタの各ノード上で処理される。 生成や変換が遅延評価される。 RDD は復数のマシンから構成されるクラスタ上での分散処理を前提として設計されており、内部的にはパーティションに分割されています。Spark ではこのパーティションが分散処理の単位となり、パーティションごとに復数のマシンで処理することによって、単一のマシンでは処理しきれない大量のデータを扱うことができるのです。 Scala Doc - org.apache.spark.rdd.RDD Java Doc - org.apache.spark.api.java
![SparkのRDDについて - TASK NOTES](https://cdn-ak-scissors.b.st-hatena.com/image/square/f96f21a40964799d57222e9b7dab6d6fb0abf228/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftasukujp%2F20151223%2F20151223175152.png)