Apache Hadoopは、多数の計算機で大規模なデータを分散して保存および並列処理するためのオープンソースのソフトウェアフレームワークである。 ビッグデータ処理基盤の代表的な実装の一つとして位置づけられ、Googleの分散処理技術の設計思想に基づいている。 データログの集計や大規模データ解析など、大量データの処理に利用される。 分散ファイルシステムHDFSと並列処理モデルMapReduceを中核に構成される点を特徴とする。 Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoop YARN: Hadoopクラスタのリソース管理や、Hadoop上で動作するアプリケーショ

