タグ

2011年1月13日のブックマーク (2件)

  • 「データのライフ・サイクル」で考えるHadoopの使いどころ

    「データのライフ・サイクル」を考える RDBMSは、「非定型処理への活用」、「バッチ処理のスケール・アウト」という観点で限界に突き当たっています。しかし、RDBMSの豊富な機能が現代のコンピュータ・システムに欠かせない存在であることも間違いありません。この矛盾をどう解決すればいいのでしょうか。 この問題を解決する鍵は、「データのライフ・サイクル」にあります。 RDBMSは、管理するデータはすべて「起きている(活動している)」、つまり「いつでも更新される可能性がある」ことを前提に設計されています。例えば、銀行の口座残高は、バッチ処理が進んでいる最中にも、ATMからの引き出しなどのリアルタイム処理で更新される可能性があります。 しかし、すべてのデータが「起きている」わけではありません。例えば、銀行口座の「昨日の取引履歴」は、過去のデータなので、更新される可能性はまずありません(過去の取引履歴を

  • 第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp

    Amazon Elastic MapReduceとは 昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service(AWS)のElastic MapReduce(EMR)です。 図1 Amazon Elastic MapReduce AWSMapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。連載ではEMRの使い方、気をつけなければいけない点などを重点的

    第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp