Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。 基本的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報がある。Cloudera 使ってもいい(まだ使ったこと無いけど)。 スタンドアローンなら Windows でもそんなには難しくない。けど、疑似分散になると途端にやっかい。 そんなこんなで Windows 2008 x64 に Hadoop 0.21.0 を疑似分散でセットアップにチャレンジ。 最初に結論から。 Hadoop 0.21.0 は使うな。 Windows で Hadoop は使うな。 【追記】Mahout 0.4 が Hadoop 0.20.2 なので、最初からそれを使うのがベストだった。0.5-SNA