http://spark.incubator.apache.org/ Sparkは、Hadoop上で動作するクラスターコンピューティングの基盤です。 という説明で正確かは自信ありません。。 生のHadoop+HDFS構成でMapReduceを動作させると基本的にHDFSに対してシーケンシャルアクセスが発生しますが、たとえばMapReduce上でiterableな解析処理を実行しようとすると毎回HDFSをシーケンシャルに読み込むために性能劣化につながります。 そのためSparkではRDD(Resilient Distributed Dataset)というデータ機構を独自に用意し、一度読み込んだデータはメモリ上にキャッシュするなどの対策でiterableな解析処理も多少は最適化するようになっています。 この特性を活かして、MLlibのような機械学習ツールや、Bagelのようなグラフ解析ツールも