phjiのブックマーク - はてなブックマーク

Spark + YARN + CDHの相性
http://spark.incubator.apache.org/ Sparkは、Hadoop上で動作するクラスターコンピューティングの基盤です。という説明で正確かは自信ありません。。生のHadoop＋HDFS構成でMapReduceを動作させると基本的にHDFSに対してシーケンシャルアクセスが発生しますが、たとえばMapReduce上でiterableな解析処理を実行しようとすると毎回HDFSをシーケンシャルに読み込むために性能劣化につながります。そのためSparkではRDD(Resilient Distributed Dataset)というデータ機構を独自に用意し、一度読み込んだデータはメモリ上にキャッシュするなどの対策でiterableな解析処理も多少は最適化するようになっています。この特性を活かして、MLlibのような機械学習ツールや、Bagelのようなグラフ解析ツールも
phji 2014/12/26
リンク
1

はてなブックマーク