初めまして、カケハシのデータ基盤チームでデータエンジニアしている大木と申します。 この度カケハシでは、全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し、2022/07より本格導入することとなりました。 当記事では、カケハシがDatabricksを採用するに至った技術選定の背景について紹介させていただきます。 ※カケハシのデータ基盤の組成のお話はこちらの記事で詳しく紹介されておりますので良ければご覧ください。 カケハシのデータ基盤アーキテクチャと課題 まずカケハシのデータ基盤のアーキテクチャと抱えている課題について紹介します。 Databricks導入に伴い現在は一部変更が入りつつあるのですが、導入前のアーキテクチャとしては以下のような構成になっていました。 様々なデータソースから収集した生データをAWSのS3に集約 Glue、Athena等のETLサービス、分散処