こんにちは!WEBマーケティング事業部エンジニアの@hatappiです。 現在私のプロジェクトでデータパイプラインのスケジュールとモニタリングをAirflowというオープンソースのツールを使用して運用しています。 今回は導入や使い勝手の話です。 Airflowとは? airbnbがオープンソースで開発したワークフロー管理プラットフォームです。 ※ 現在はApache Incubatorのオープンソースプロジェクトになっています。 Airflowはバッチ同士の関係を管理し、可視化することが出来ます。 また、実行した際のLogや実行時間の推移など、様々なデータの閲覧をデフォルトの機能として使用することが出来ます。 データパイプラインとは? プロジェクトを運用していると、複数のテーブルにデータが入っており、それらのサマリーを作成するといった経験をしたことはありませんか? これらの一連のプロセスの
![Airflowによるデータパイプラインのスケジュールとモニタリング - Speee DEVELOPER BLOG](https://cdn-ak-scissors.b.st-hatena.com/image/square/67c11bcfb9193cd4ac781f6c49a7939605e8bdcc/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftechnica-speee%2F20160706%2F20160706202652.jpg%3F1467804414)