僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用してかれこれ2年経つのでその経験をもとにバッチ処理の実装方法を書いてみようかと思う。 バッチ処理、ジョブ管理について書いてみる - wyukawa’s blogでは主にジョブ管理について書いたので今回はバッチそのもののに焦点をあてる。 ジョブ管理のときはつらつら書いて読みにくかったように思うので今回は箇条書きする。 バッチ処理は以下のように実装すると良いと思ってる。なおここではHadoopのようなIOメインな処理を前提としている。 ・LL言語で実装する コンパイルがいらないからね。もしJavaで実装したらコンパイル、パッケージングしてデプロイしないといけない。バッチなんてどうせデータ処理がメインだからローカルでは実装しづらいことが多いし、どうせサーバー上で直接作業するでしょ。障害時は特にね。