こんにちは。Customer Analytics Division所属データサイエンティスト兼データエンジニアの渡邉です。ARISE analyticsでは数百人のデータサイエンティストが活躍しています。一般的な分析環境は、データサイエンティストがそれぞれEMRを立て、その上のsparkで分析を走らせています。ただ、その分日々の分析費用も大きいものとなっています。そこで、sparkパラメータ最適化にトライしました。 spark最適パラメータ計算法 こちらのAWSの記事に従って計算しました。一部のパラメータについて、絵で説明したいと思います。 spark.executor.cores sparkはExecutorという単位があり、これが処理を実行する単位です。spark.executor.coresは各ExecutorがCPUのcoreをいくつ使用するか決めるパラメータです。絵で直感的にわか