はじめに こんにちは。 前回に引き続き、SparkInternalsを訳していきます。 前回と同じく以後は下記の判例となります。 SparkInternals訳文 コメント cache(またはpersist)はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブな機械学習アルゴリズム、インタラクティブなデータ解析といったユースケースにおいて大きく高速化に貢献している。Hadoop MapReduceのジョブと異なり、SparkのLogicalPlan/PhysicalPlanは巨大化し、処理の連鎖も大きく、RDDに対する計算時間も長くなる。もし、不幸にもエラーや例外がTask実行中に発生した場合、処理の連鎖の全体を再実行する必要が出た場合、計算ロスのコストはかなり大きいものとなる。従っ
![SparkInternalsで知る、Sparkの内部構造概要(cache and checkpoint) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/af48dbcf8f7fd29a1c4c60bf233456ddcd532c26/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9U3BhcmtJbnRlcm5hbHMlRTMlODElQTclRTclOUYlQTUlRTMlODIlOEIlRTMlODAlODFTcGFyayVFMyU4MSVBRSVFNSU4NiU4NSVFOSU4MyVBOCVFNiVBNyU4QiVFOSU4MCVBMCVFNiVBNiU4MiVFOCVBNiU4MSVFRiVCQyU4OGNhY2hlJTIwYW5kJTIwY2hlY2twb2ludCVFRiVCQyU4OSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9OWYxNzk5YmIyNWI3ZmVmMmY1Zjg3NmM5MmQwMjRjMmE%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBraW11dGFuc2smdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWI3OGQxN2UyNzlhMjFmOTE5NzkyNDFjMDU5ZGRhMTI5%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D62a8995f3cedc345e07eb3ef00ba2c0f)