はじめに この記事はEnigmo Advent Calendar 2018の11日目です。 Enigmoでは、データウェアハウス(DWH)としてBigQueryを使っていて、サービスのアクセスログやサイト内の行動ログ、データベースのデータをBigQueryへ集約させています。 データベースからBigQueryへのデータ同期にはApache Airflowを使っていて、今日はその仕組みについて紹介します。 Apache Airflowとは Airflowは、pythonでワークフロー(DAG)を定義すると、そのとおりにタスク(オペレーター) をスケジューリングして起動してくれるツールです。GCPでもGKE上でAirflowを動かすCloud Composerというサービスが提供されていてご存知の方も多いと思います。 データの処理の単位をオペレータで定義し、その処理の依存関係を反映したワークフ
![Apache Airflow で実現するSQL ServerからBigQueryへのデータ同期 | Enigmo Life](https://cdn-ak-scissors.b.st-hatena.com/image/square/5f197a1058d1a0d036dceaf827f17d52eb35435f/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fe%2Fenigmo777%2F20190829%2F20190829134822.png)