こんにちは。業務委託の@morix1500と申します。 この度、スタディプラス様からデータ分析基盤の構築の業務委託を受け、AWSのマネージドサービスを用いて構築を行いました。 その際に得られた知見を共有したいと思います。 データ分析基盤について 今回スタディプラス様から受けたデータ分析基盤の要件は以下のようなものでした。 S3にあるログをAWS Athenaから閲覧できるようにしてほしい S3にあるJSON形式のログを列指向型のフォーマット(Parquet)に変換してほしい ログは順次取り込み(毎朝、昨日分のログが見れるようにする) すでにログはS3にあったのでログ収集は終わっています。 データ分析基盤の構成 今回作成したデータ分析基盤はAWSのマネージドサービスで完結してます。 今回構築したのはGlueの部分です。 Glueの構成や初期構築の手順は以下のドキュメント通りです。 https