0.はじめに Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の14日目です。(投稿が過ぎてしまって本当にすいませんでした。。。) タイトルは若干煽り目ですが、今年はAmazon EMRとGoogle Dataprocを使う機会が多かったので、実際に利用しての現時点における機能比較と使ってみての所感についてまとめてみようかと思います。 補足や誤り等あればぜひお願いいたします。 先に結論 現時点においては適材適所なのでどちらが絶対的優勢とは言えないのですが、以下が現時点におけるベターな使いかたかなと思います。あくまで所感です。 次から詳細な比較に入っていきます。 EMR バッチ処理等のワンショット的な使いかた、ストリーム処理等の常時稼働させておく系の使い方の両方をそつなくこなせる 常時稼働させておく場