Amazon Elastic Mapreduce(EMR)は、Hadoop環境を構築することなくMapReduceが使える、PaaSに近いものです。しかし、中身はAmazonが独自にカスタマイズしているHadoopなので、一般的なHadoopのチューニング手法をそのまま適用できない場合があったりします。 前回の予告とは若干異なりますが、今回はいったんEMRを離れてHadoopの基礎を説明します。順番的にも先にこちらを説明したほうが内部のしくみもわかってより理解しやすいと思います。 HDFSではサイズが大きいファイルを扱うほうが効率的 あえて今回まで触れませんでしたが、Hadoopとは言わずと知れたGoogleの論文をもとに作成されたGFS(Google File System)とMapReduceのオープンソースのクローンです。GFSはHDFS(Hadoop Distributed Fil
![第7回 Amazon Elastic MapReduceのパフォーマンスを引き出すためのHadoopの基礎知識 | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/9b9c1c564fd2d25e8c1a812a657de1ee3e23ee7b/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2011%2F751_emr.png)