こんにちは、CyberZのエンジニアの遠藤です。 もうすっかり秋めいてきたので、温泉に行きたい今日このごろです。 さて、今回は社内にあるデータ分析用基盤のHadoop環境にワークフロースケジューラーを導入したので、前編と後編に分けてCyberZでの導入事例を書きたいと思います。 弊社ではさまざまなデータの分析やレポートデータの集計にHadoopを利用しています。 主に、HiveとImpalaを用いており、日次や週次、月次で集計バッチを回していました。 これまで、特にワークフロースケジューラーは導入しておらず、Jenkinsを利用してバッチの管理や実行を制御していました。 しかし、Jenkinsではジョブ間の依存関係の制御が難しく、集計バッチを増やす際の追加が若干面倒であったり、障害等で集計が失敗したときのリトライ制御が難しいなど、運用上の問題や負担がいくつかありました。 2015年の夏頃に
![HiveとImpalaにワークフロースケジューラーを入れてみた(前編) - CyberZ公式エンジニアブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/36f556e94370afcfc399a74ed559479d46a896c5/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fc%2Fcyberz-dev-writer%2F20151110%2F20151110144131.jpg)