タグ

hadoopとlog-managementに関するnabinnoのブックマーク (2)

  • Hadoop-CDH4.3.0にfluentd - なぜか数学者にはワイン好きが多い

    WebHDFSを入れたのはfluentdを使うためだったのですが,fluentdはご覧のように依存があるので gem install fluentd ERROR: While executing gem ... (Gem::DependencyError) Unable to resolve dependencies: fluentd requires msgpack (!= 0.5.0, != 0.5.1, != 0.5.2, != 0.5.3, < 0.6.0, >= 0.4.4), yajl-ruby (~> 1.0), cool.io (~> 1.1.0), http_parser.rb (~> 0.5.1)gemでMessagePackとyajlとcool.ioとhttp_parser.rbを入れておきます. 通常,サックリいくはずですが,私はネットワークに繋がらないサーバ上で作

    Hadoop-CDH4.3.0にfluentd - なぜか数学者にはワイン好きが多い
  • バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

    僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。 僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ!とかあれば是非ブログ等に書いてほしいと思っております。 最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。 なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

    バッチ処理、ジョブ管理について書いてみる - wyukawa's diary
  • 1