hadoopアドベントカレンダー2011の19日目を担当する@aoetk / id:aoe-tkです。 業務でHadoopのラック認識設定を行う必要に迫られ、そのときに調べたメモを公開したいと思います。 Hadoopはネットワークトポロジーを考慮して動くことはよく知られていることでしょう。("rack awareness" である言われることが多いです) 次のような挙動を行ったりします。 MapReduceのタスクをノードに配置する際、ラック間の転送よりもラック内の転送を優先させる HDFSは特定のラックに偏らないような複製を行う ただし、どのノードがどのラックに所属しているか、といった情報は外部から教えてあげる必要があります。 Hadoopはインターフェース DNSToSwitchMapping の resolve メソッドを用いてノードのネットワークロケーション情報を取得します。 この