Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive
![並列分散処理の常識をHadoopファミリから学ぶ](https://cdn-ak-scissors.b.st-hatena.com/image/square/6e84fc6ab06f31b2e64248cbfc92fe06deb5bab5/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fimages%2Flogo%2F1200x630_500x500_ait.gif)