Nyohoのブックマーク - はてなブックマーク

SparkInternalsで知る、Sparkの内部構造概要（cache and checkpoint） - Qiita
はじめにこんにちは。前回に引き続き、SparkInternalsを訳していきます。前回と同じく以後は下記の判例となります。 SparkInternals訳文コメント cache（またはpersist）はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブな機械学習アルゴリズム、インタラクティブなデータ解析といったユースケースにおいて大きく高速化に貢献している。Hadoop MapReduceのジョブと異なり、SparkのLogicalPlan/PhysicalPlanは巨大化し、処理の連鎖も大きく、RDDに対する計算時間も長くなる。もし、不幸にもエラーや例外がTask実行中に発生した場合、処理の連鎖の全体を再実行する必要が出た場合、計算ロスのコストはかなり大きいものとなる。従っ
Nyoho 2016/12/31
Spark
リンク
1

はてなブックマーク