エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Spark + YARN + CDHの相性
http://spark.incubator.apache.org/ Sparkは、Hadoop上で動作するクラスターコンピューティングの基盤... http://spark.incubator.apache.org/ Sparkは、Hadoop上で動作するクラスターコンピューティングの基盤です。 という説明で正確かは自信ありません。。 生のHadoop+HDFS構成でMapReduceを動作させると基本的にHDFSに対してシーケンシャルアクセスが発生しますが、たとえばMapReduce上でiterableな解析処理を実行しようとすると毎回HDFSをシーケンシャルに読み込むために性能劣化につながります。 そのためSparkではRDD(Resilient Distributed Dataset)というデータ機構を独自に用意し、一度読み込んだデータはメモリ上にキャッシュするなどの対策でiterableな解析処理も多少は最適化するようになっています。 この特性を活かして、MLlibのような機械学習ツールや、Bagelのようなグラフ解析ツールも