この記事はOpt Technologies Advent Calendar 2017の11日目です。 概要 EMR、Hadoop、Sparkそれぞれの関係を、試しに動かしてみたりドキュメントに当たることで理解する。 それによって、何が起きているのかをログやメトリクスから把握できるようになることを目指します。 (社内勉強会にて話した内容に修正を加えたものになります。) まず動かしてみる 何はともあれ動かせる状態にします。これをベースに色々実装を変えてSparkに慣れましょう。 最小構成 以前書いた記事はこちら Scala版のSpark Jarの最小限の構成 今回試してみるコードはこちら Localで動かす Sparkのバイナリをダウンロードしてくる https://www.apache.org/dyn/closer.lua/spark/spark-2.2.1/spark-2.2.1-bin-