EC2でHadoopを使う場合、インスタンスを停止するとデータがなくなる(EBSを使うという手もありますが)関係でデータはS3に置く場合が多いと思います。 その場合、S3からEC2上のHDFSに読み込んでから処理をして最後にS3に書き出すということも考えられますが、やはりS3上のファイルを直接Hadoopのジョブ入出力として使うのが効率が良い。(更に言うと、複数のジョブを実行する時の中間のデータを保存するのにはHDFSを使った方が速い) そもそもHadoopはファイルシステムの部分を抽象化していて、HDFSもその実装の一つに過ぎません。 AmazonS3 – Hadoop Wikiにもありますが、S3を使うための実装には2種類あるので注意。 S3 Native FileSystem (URI scheme: s3n) 普通にS3上のファイルを読み書きするネイティブファイルシステム。H