はじめに 前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「本検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング 最適なクラスタ構成を検討するにあたり、今回はSparkの(設定ファイルspark-defaults.confに記述できる)パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用(前回解説したもの) パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです(図1)。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか