タグ

ブックマーク / qiita.com/kimutansk (1)

  • SparkInternalsで知る、Sparkの内部構造概要(cache and checkpoint) - Qiita

    はじめに こんにちは。 前回に引き続き、SparkInternalsを訳していきます。 前回と同じく以後は下記の判例となります。 SparkInternals訳文 コメント cache(またはpersist)はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブな機械学習アルゴリズム、インタラクティブなデータ解析といったユースケースにおいて大きく高速化に貢献している。Hadoop MapReduceのジョブと異なり、SparkのLogicalPlan/PhysicalPlanは巨大化し、処理の連鎖も大きく、RDDに対する計算時間も長くなる。もし、不幸にもエラーや例外がTask実行中に発生した場合、処理の連鎖の全体を再実行する必要が出た場合、計算ロスのコストはかなり大きいものとなる。従っ

    SparkInternalsで知る、Sparkの内部構造概要(cache and checkpoint) - Qiita
    Nyoho
    Nyoho 2016/12/31
    Spark
  • 1