Amazon EMRとは? AWSの内部で Hadoop を動かせる環境を提供してくれるサービス Hadoopとは? 大規模データの分散処理を支えるJavaソフトウェアフレームワーク http://ja.wikipedia.org/wiki/Apache_Hadoop そのHadoopが行う分散処理のことをMapReduceと呼ぶ。 実際はMap関数とReduce関数を、あるルールに従って書くだけで良い 後はよしなに複数台のサーバーで分散処理をしてくれる。 Amazon EMRの構成 Amazon S3を入出力とし、複数台起動させたEC2インスタンスがMapReduce処理を行う。 経過はAWSコンソール上から監視可能。 Hadoop Streaming MapとReduceのフェーズは標準入出力を介してデータのやり取りが行われるようになっている。 Hadoop自体はJavaにより構築され