前のエントリでは各ノードのメモリ管理について書いたので、次にクラスタ全体のリソース管理として CapacitySchedulerについてのメモです。 なお、CDH4.1.2で試した結果ですので、最新のバージョンとは(ry CapacitySchedulerについて クラスタ上では同時に様々なmapreduceを実行するのが普通だと思います。 CapacitySchedulerを利用すると、各jobごとに重要度に応じて、柔軟なリソース割り当てを行うことができます。 詳細は以下を確認してください。 http://archive.cloudera.com/cdh4/cdh/4/hadoop/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html 以下、微妙に気になったトコをメモしていきます。 rootのcapacity設定は必須 自明なのでなくても