タグ

ブックマーク / medium.com/@yutaimai (1)

  • Hadoopとクラウドストレージ

    ざっと要約すると オンデマンド、アドホックなワークロードはクラウドで動作させると経済合理性が高い。必要なリソースを必要な分だけ利用し、終わったら破棄できるから。(当たり前の話。)そこでポイントになってくるのがAmazon S3やWindows Azure Storage Blobのようなクラウドストレージ。これらのストレージは高い可用性と地理的分散などによるデータ耐久性、マルチテナンシーを持ちながらも経済的な価格で利用できる。クラウド上のデータレイクは間違いなくこれらのクラウドストレージとなる。ということで、クラウドストレージを中心に、その周りにデータ処理のためのクラスタを配置していこうというアーキテクチャが語られている。しかし、ここにはいくつか解決すべき課題がある。 クラウドストレージはFile System APIではなく REST APIで利用する必要がある。当然ローカルにあるHDF

  • 1