2日目です Apache Sparkは「インメモリで処理できる分散処理基盤」ですが、状況によってはディスクへのアクセスがあります。 明示的にディスクに永続化した場合 (persist()) チェックポイントを取った場合(checkpoint()) シャッフル時(暗黙的) 3がわかりにくいので、簡単にまとめてみます。 明示的に永続化する Spark Programming Guideから抜粋しますが、例えば以下のようなコードを書くと、明示的にディスク(またはコードを変更すればメモリに)にRDDを永続化できます。永続化しておくことで、処理をもう一度実行する際、先頭からRDDのリネージを辿る必要がなくなるため、繰り返し処理などに効率的です。 当然ですが、ディスクに永続化するよりもメモリに永続化する方が高速ですが、その分多くのメモリを必要とします。キャッシュされた古い情報はLRUで捨てられます。ま