2008年6月3日のブックマーク (2件)

  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    2. Hadoop & hBaseの概要 Googleの基盤ソフトウェアに共通する特徴は、非常にスケーラブルかつ故障に強いということです。Googleでは全世界中のデータを処理しないといけない訳ですから、大量のマシンでデータを保持・処理するための技術が必要であるのはある意味必然です。 連載で紹介するHadoop、hBaseは、これらGoogleの基盤ソフトウェアのオープンソースクローンです。HadoopはGoogle File SystemMapReduce、hBaseはBigTableに相当します。Chubbyのオープンソース実装はまだありません。 最近はWebアプリケーションが全盛期を迎え、以前よりも多くのデータやログを蓄積されている企業も多いかと思います。しかし、データはあってもそれらを有効に活用できていないことが多いのではないでしょうか。 Googleの基盤ソフトウェアクローン