MapReduceと並びHadoopの要とも言える分散ファイルシステムHDFSの仕様について、自分の頭を整理するためにまとめてみる。ほぼ参考書からの引用ではあるのだが、有益な情報があれば都度追記予定。なお、以下文中に記述したxmlのプロパティはCDH4に対応する。CDH3はプロパティが異なります。その他の仕様、xmlファイルも異なる場合あり。両方書いておければよいのだが、手が回らないので… HDFSで動作するデーモン NameNode(ネームノード)→ マスタで稼働 SecondaryNameNode(セカンダリネームノード)→ マスタで稼働 (別マシンで稼働させるケースもあり) DataNode(データノード)→ スレーブで稼働 ネームノードの役割 ファイルシステムのメタ情報であるファイルの位置情報や属性を一元管理し、クライアントからの指示を受け取りデータ処理をデータノードに指示する。メ