PayPayではマイクロサービスにおいて、SQLデータベース、NewSQLデータベース、KVデータベース、ファイルシステム等、様々なデータストレージソリューションを使っています。そこで、DaaS(Data as a Service)チームがDWHを構築し、ユーザーがデータ分析に使う統合データを提供しています。 私たちはバッチアプリケーションであるSparkを使用し、様々なデータソースからデータを抽出するアプリケーションを構築しました。従来のアプローチと同じようにデータを徐々に取り出し、データの重複を排除し、タイムスタンプに基づいてAWS S3に書き出します。次に、データを正規化した後、Google BigQueryにアップロードします。このアプローチでは、各データベースクラスタにRO(読み取り専用)レプリカインスタンスを作成してデータを抽出し、RW(読み取り/書き込み)インスタンスのパフォ