タグ

fluentdとpythonに関するslay-tのブックマーク (2)

  • バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

    僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。 僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ!とかあれば是非ブログ等に書いてほしいと思っております。 最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。 なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

    バッチ処理、ジョブ管理について書いてみる - wyukawa's diary
  • Fluentdプラグイン in_exec, out_execの動作を確認する – OpenGroove

    Fluentdの組み込みプラグインに、 in_exec / out_exec というのがある。 in_exec 任意のコマンド/プログラムの実行結果をイベントのソースとする out_exec イベントのMsgをファイルとして任意のコマンド/プログラムに渡す。そのファイル名が引数となる。 インターバルを指定し、その間隔においてプログラムが実行される。 …と聞いても分かったような分からないような微妙な心境なので、とにかく動かす。実行環境はAWS上のCentOS6.5 1台。td-agentはインストール済み。 in_execの動作を確認してみる。こんなスクリプトを用意。 random_number.py #!/usr/bin/env python # -*- coding: utf-8 -*- import random for i in range(0, 30): print random.

  • 1