前提 GCP内でのデータパイプラインで、DWHはBigQueryを使用 DWHバッチ処理のパターン バッチ処理ベースのDWHデータパイプラインは 複雑なことをしない限り以下のパターンでほとんど網羅できると思われる。 GCSからCSV等のファイルロード(DROP-CREATE-INSERT) GCSからCSV等のファイルを整形してロード(PREP-DROP-CREATE-INSERT) 最新マスタ等のデータ更新(TRUNCATE-INSERT) 蓄積テーブル、サマリのデータ更新(DELETE-INSERT) あとはデータパイプラインとは直接関係ないが、運用系として以下の処理パターンもある バッチ処理の開始と終了時のメール通知 GCS内でのファイル移動(退避) Airflowでのデータパイプラインの作成方法 Airflowはpythonを使用して、DAGと呼ばれるジョブの固まりを定義したファイ