TL;DR Amazon CloudFrontのアクセスログをBigQueryに入れるようにした BigQueryへのデータ投入には社内の他プロジェクトでも利用していて実績があり、KAIZENがメンテナになっているfluent-plugin-bigqueryを利用 背景 ここ2ヶ月くらい、あらゆるログをBigQueryに集約しつつあって、今回はAmazon CloudFrontのアクセスログについて作業をした。 Amazon CloudFrontのアクセスログには以下のような特徴がある。 Amazon CloudFrontのアクセスログは数時間〜1日程度遅れでS3のBucketに追加される。時系列はバラバラ CloudFrontのアクセスログがtsv形式。 ベストエフォート型で全てのログがS3に収容される保証は無い gzで圧縮されてS3に追加される(BigQueryに入れるにはgz形式から