本記事 Apache Azkaban, Airflow, Luige, Oozieのこれらはワークフロー管理に使われるOSSです。 HadoopやSparkなどを使って分散処理をナイトリーに行なっている場合、そのスケージュールリングだったり監視などが大変になってきます。 そのような中で、ワークフロー管理OSSがあるわけですが、どのようにして選定できるかを比較しながら考えます。 tl;dr 比較表は以下の通り。 OSS名 開発元 年 目的 主な開発方法 留意点 Azkaban LinkedIn hoge Hadoopのバッジ処理を時間単位でスケージューリングする目的。 GUI リッチなUIで監視、検索したりすることができる。 Airflow Airbnb 2015 DAGSのようにワークフローをモニタし、認証し、スケージューリングする目的。 Luigeのようにプログラムベース リッチなCLI