Sparkで機械学習をするとき、前処理もSparkでやりますよね。 前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。 無邪気に変数を定義するデータサイエンティストにイラっとします。 さて、ある程度の大きさのデータを処理すると、 タイムアウトとかOOMとか、処理が遅かったりしますね。 そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。 使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser