こんにちは。ヤフー広告でデータエンジニアをしている長峯です。 LINEヤフー株式会社では、Yahoo! JAPANと関連企業が所有するデータを活用することでお客様のマーケティング課題の発見と解決を実現するサービスYahoo! JAPAN データマーケティングソリューションを展開しています。私は本サービスを通じてお客様がさまざまなデータを活用するためのデータ分析基盤となるデータレイクの構築・運用を担当しています。このデータレイクは、2.5ペタバイトのデータを保有しており、年間1,000万クエリが実行される大規模な環境となっています。 今回、私たちはAWS上に構築されたデータレイクのデータスキャン量を4人月という工数で25%削減することに成功しました。この記事では、その削減プロセスを紹介いたします。このデータレイクは、クエリエンジンとしてAmazon Athenaを主に使用しており、Amazo
![データレイクのデータスキャン量を25%削減する方法](https://cdn-ak-scissors.b.st-hatena.com/image/square/ec801b20d5737a015217c372f2121dc7e05db008/height=288;version=1;width=512/https%3A%2F%2Ftechblog.lycorp.co.jp%2Fstatic%2F7338269cf969a066efd3d452b360d3b3%2F7d66e%2F1710157436074.png)