タグ

ブックマーク / itsneatlife.blogspot.com (1)

  • Spark + YARN + CDHの相性

    http://spark.incubator.apache.org/ Sparkは、Hadoop上で動作するクラスターコンピューティングの基盤です。 という説明で正確かは自信ありません。。 生のHadoop+HDFS構成でMapReduceを動作させると基的にHDFSに対してシーケンシャルアクセスが発生しますが、たとえばMapReduce上でiterableな解析処理を実行しようとすると毎回HDFSをシーケンシャルに読み込むために性能劣化につながります。 そのためSparkではRDD(Resilient Distributed Dataset)というデータ機構を独自に用意し、一度読み込んだデータはメモリ上にキャッシュするなどの対策でiterableな解析処理も多少は最適化するようになっています。 この特性を活かして、MLlibのような機械学習ツールや、Bagelのようなグラフ解析ツールも

    phji
    phji 2014/12/26
  • 1