こんにちは!WEBマーケティング事業部エンジニアの@hatappiです。 現在私のプロジェクトでデータパイプラインのスケジュールとモニタリングをAirflowというオープンソースのツールを使用して運用しています。 今回は導入や使い勝手の話です。 Airflowとは? airbnbがオープンソースで開発したワークフロー管理プラットフォームです。 ※ 現在はApache Incubatorのオープンソースプロジェクトになっています。 Airflowはバッチ同士の関係を管理し、可視化することが出来ます。 また、実行した際のLogや実行時間の推移など、様々なデータの閲覧をデフォルトの機能として使用することが出来ます。 データパイプラインとは? プロジェクトを運用していると、複数のテーブルにデータが入っており、それらのサマリーを作成するといった経験をしたことはありませんか? これらの一連のプロセスの