はじめに 本記事では、AWSにおいてデータレイクを構築してデータ分析に活用するためのサービスを紹介します。AWSにおいては基本的にS3がデータレイクにおける基盤となるため、以下の記事も併せて参照ください データレイクとは データレイクとは構造化、非構造化を問わず様々な形式のデータを大量に保管するための仕組みで、主にビッグデータ分析に用いられます。 ビッグデータ分析用のデータ保管方法には、他にもデータウェアハウス(DWH)が挙げられますが、DWHは構造化されたデータベース形式でデータを保持するのに対し、データレイクはCSVやテキストファイル、画像のような非構造化データも保存できる事が特徴です。 ビッグデータ分析の特徴として、数千万行(レコード)以上の大容量データを分析対象として扱う事が挙げられます。このような大容量データを扱うことで、以下のようなメリットとデメリットが生じます。 データレイク