フューチャー Advent Calendar 2018 Qiita 5日目の記事です。 みなさん、こんにちは。 本記事は、AWS Glueについてのサービス概要や開発Tipsを紹介する5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編)の続編で、Glueの性能検証した内容を共有していきます。 検証についてGlueの性能がテーマですが、Glueそのものには設定できるパラメータが少ないためチューニングの余地が比較的小さいです。 その中で、Glueの機能に着目すると以下の1~4が挙げられると思います。 DPU数 ジョブに使用されるDPU(Data Processing Unit)の数、Sparkで言うところのworker nodeの数に該当 1DPUは4vCPU、16GBのメモリを持ち、これ以外を選択することは不可 ジョブ実行に使用できるDPU数は最低2つ、最大で100まで設