電通デジタルでBIエンジニアをしている三瓶です。 普段は社内向け広告運用改善ダッシュボードのデータエンジニアリング周りを担当しています。 本記事では、AirflowのOperatorを使ってBigQueryのテーブルの値によって実行するタスクを分岐する方法についてご紹介します。 Airflowの実行タスクを分岐するに至った理由 弊社では主にワークフローエンジンのAirflow[1]を用いて取得したデータのETL関連タスクをワークフロー(DAG)に乗せて実行しています。 しかし、上の管理画面の画像のように多種多様なDAGを常時複数運用をしていると、出力結果の品質チェックを毎回行うのはかなりのコストがかかり日々コストの効率化に勤しんでいます。 そこで考案したのがBigQuery上の出力結果を取得し、品質的に異常があった場合はその内容をSlackへ通知し、そうでない場合は通常通りDAGを完了する
![BigQueryのテーブルの値でAirflowの実行タスクを分岐する|Dentsu Digital Tech Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/1b69baa42a0040873fe4845d29f9d4e0b5f1dbb3/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F48556257%2Frectangle_large_type_2_c9149a309c4452f881391071ee5aecb7.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)