タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC
![分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)](https://cdn-ak-scissors.b.st-hatena.com/image/square/ee5f4790eeb0807f6a81d1e3d91fa456de91320c/height=288;version=1;width=512/https%3A%2F%2Fwww.notion.so%2Fimage%2Fhttps%253A%252F%252Fprod-files-secure.s3.us-west-2.amazonaws.com%252Fcdddcca9-a0c2-4b8c-abb7-9427a1cc2335%252F12da15c7-09e8-452b-af10-18a185076f6c%252Fblogtaxibell-analytics-db-uploader-v1.drawio.png%3Ftable%3Dblock%26id%3Df564ba47-10dd-4c51-8046-90fc2ef5a8c0%26spaceID%3Dcdddcca9-a0c2-4b8c-abb7-9427a1cc2335%26cache%3Dv2)