msyktのブックマーク - はてなブックマーク

msykt id:msykt

ブックマーク / shun0102.net (1)

HadoopのファイルシステムとしてS3を利用する
EC2でHadoopを使う場合、インスタンスを停止するとデータがなくなる（EBSを使うという手もありますが）関係でデータはS3に置く場合が多いと思います。その場合、S3からEC2上のHDFSに読み込んでから処理をして最後にS3に書き出すということも考えられますが、やはりS3上のファイルを直接Hadoopのジョブ入出力として使うのが効率が良い。（更に言うと、複数のジョブを実行する時の中間のデータを保存するのにはHDFSを使った方が速い）そもそもHadoopはファイルシステムの部分を抽象化していて、HDFSもその実装の一つに過ぎません。 AmazonS3 – Hadoop Wikiにもありますが、S3を使うための実装には2種類あるので注意。 S3 Native FileSystem (URI scheme: s3n) 普通にS3上のファイルを読み書きするネイティブファイルシステム。H
msykt 2013/02/24
hadoop

s3
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx