タグ

ブックマーク / ritchiekotzen.hatenablog.com (3)

  • CDH4でoozie使う:mahout - ritchiekotzen's blog

    ちょっと苦戦・・・ mahoutが見てるライブラリをクラスパスに通す必要がある。 まず、[workflow]/lib に入れるも、hueから実行すると、わざわざ最初に lib 配下を掃除してから「jar name」で指定した jar だけ入れて実行するという意味不明なクソ仕様らしい・・・(jar name って一つしか jar 指定できないようだし、[workflow]/lib には一つしかjar入れられない!?全部共有ライブラリに入れろと!?) というわけで共有ライブラリに入れようとしたのだが、oozie.libpath 直下に入れてもダメ、[oozie.libpath]/java に入れてもダメ。 結局、[oozie.libpath]/oozie に入れるという強引な手を使った・・・ ただ、動いたはいいが、mahout 君はエラーになっても例外出さずに終了するので、oozie さんがエ

    CDH4でoozie使う:mahout - ritchiekotzen's blog
  • mahout で MAHOUT_HEAPSIZE を設定しても hadoop 上で実行する場合には意味ない - ritchiekotzen's blog

    mapreduce にジョブが入るような処理だけでなく、clusterdump とか、hadoop 環境で実行すると runjar で実行されるコマンドも。 hadoop のスクリプトで JAVA_HEAP_MAXが上書かれる。 (MAHOUT_HEAPSIZE はhadoopを使わないローカル実行用のようだ。) mahout のジョブのHEAPサイズを変えたい場合は、mahout スクリプトの中で HADOOP_HEAPSIZE を設定するという手がある。 hadoop側で設定変更すると、hadoopのコマンドラインで実行する全てのジョブに効いてしまうが、mahout スクリプトで設定すれば、mahout から実行した時だけ変更できる。

    mahout で MAHOUT_HEAPSIZE を設定しても hadoop 上で実行する場合には意味ない - ritchiekotzen's blog
  • mahout こんどは command line から動かなくなる・・・ - ritchiekotzen's blog

    cloudra manager で「クライアント設定を展開」したら、なぜか HADOOP_CLASSPATH の mahout周りの設定が消えて、mahoutコマンドが動かなくなった。 (java.lang.NoClassDefFoundError 出まくり・・・) HADOOP_CLASSPATH の設定は自分で入れたものじゃなくて、CMが最初に入れてくれてたものなのに・・・ /usr/lib/mahout/bin/mahout を修正 export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH} ↓ export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH}:$CLASSPATH これって絶対にバグだよね!

    mahout こんどは command line から動かなくなる・・・ - ritchiekotzen's blog
  • 1