Apache Hadoop とは、ギガバイト規模からペタバイト規模までさまざまなサイズのデータからなる大規模なデータセットを、効率的に保存および処理するために使用されるオープンソースフレームワークです。データの保存と処理を単独の大型コンピュータで行う代わりに、Hadoop では複数のコンピュータをクラスター化して、巨大なデータセットの分析をよりすばやく並列実行できます。 Hadoop は、次の 4 つの主要モジュールで構成されています。 Hadoop 分散ファイルシステム (HDFS) – 標準またはローエンドのハードウェア上で動作する分散ファイルシステム。HDFS は、高い耐障害性と大規模なデータセットのネイティブサポートに加えて、従来のファイルシステムよりも優れたデータスループットを提供します。 さらに別のリソースネゴシエーター (YARN) – クラスターノードとリソースの使用状況を
