本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak