Amazon Elastic MapReduceの例で出てくるのは今まで見た限りでは、みんなs3n://で始まるS3 Native FileSystem上にファイルを置いている。 http://wiki.apache.org/hadoop/AmazonS3 にあるように、もう一つ s3://で始まるS3 Block FileSystemというのがある。 これまでS3fsって言ってたけどこれはs3-fuseと紛らわしいし、名前として正しくないのでS3 Block FileSystemと呼ぶべきでした。 で、これを使いたい。 メリットは、以下のように理解してる。 ファイルがブロックに分割されるので、通常5GBまでというS3のファイルサイズの制限を超えられる ファイルがブロックに分割されるので、HDFSと同様Hadoopの各jobtaskに処理を効率よく分散できる デメリットは、たぶんこんな感じ