こんにちは、CyberZのエンジニアの遠藤です。 もうすっかり秋めいてきたので、温泉に行きたい今日このごろです。 さて、今回は社内にあるデータ分析用基盤のHadoop環境にワークフロースケジューラーを導入したので、前編と後編に分けてCyberZでの導入事例を書きたいと思います。 弊社ではさまざまなデータの分析やレポートデータの集計にHadoopを利用しています。 主に、HiveとImpalaを用いており、日次や週次、月次で集計バッチを回していました。 これまで、特にワークフロースケジューラーは導入しておらず、Jenkinsを利用してバッチの管理や実行を制御していました。 しかし、Jenkinsではジョブ間の依存関係の制御が難しく、集計バッチを増やす際の追加が若干面倒であったり、障害等で集計が失敗したときのリトライ制御が難しいなど、運用上の問題や負担がいくつかありました。 2015年の夏頃に