速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに