改めてAmazon EMRを触った際の備忘録 以下のSpark ETLのWorkshop触ってのポイントまとめ https://emr-etl.workshop.aws/spark_etl/steps.html 対応フレームワーク Hadoop、Spark、Presto、Hive、Flink などのビッグデータ処理フレームワークやクエリエンジンのほか、TensorFlow、MXNet、Mahout などの機械学習系、Jupyter、Zeppelinなどのノートブックなどなど様々 EMR クラスタデプロイパターン オプションは大きく分けて3つ [1] EMR on EC2 上記豊富なフレームワークから選べる標準的な使い方 基本はマスターノード・コアノード ・タスクノードで構成 ノードタイプを固定するUniformインスタンスグループと、スポットインスタンスを組み合わせてコスト最適化戦略が組め