はじめに EMR上にSpark環境を構築して触っていたのですが、常時立ち上げて置くのもコストがかかるし 使わなくなったら消して、使うときになったら環境構築をしてというのが大変だったので EC2上にSpark環境を構築しました。 好きなときにサーバの起動・停止が出来るので低コストでSparkの検証が行えます。 また分析が行いやすいようiPython Notebookを入れ、そこでSparkも扱えるようにしました。 EC2インスタンスの準備 Sparkに使うサーバの起動、停止、削除などを行なうくらいなので低スペックのもので十分です。 今回は一番安い、t2.microを使用しました。 Sparkのダウンロード gitコマンドを使用するので まずgitをインストールし必要なファイルを持ってきます。 sudo yum install -y git git clone git://github.com