クラスタリングの実行と結果の検証 クラスタリングの実行には、今回は「Canopy」「K-Means」という2つのアルゴリズムを使いました。Canopyによって、「入力データをいくつのクラスタに分けられそうか」大まかに調べ、その結果を踏まえてK-Meansできっちり分けます。 【5】アルゴリズム実行 まず「Canopy」「t1」「t2」オプションは大ざっぱにいうと、期待するクラスタの最大半径・最小半径、「dm」オプションは距離計算方法です。 $MAHOUT_HOME/bin/mahout canopy \ --input data/vector/tfidf-vectors \ --output data/canopy \ --t1 0.89 \ --t2 0.75 \ -dm org.apache.mahout.common.distance.CosineDistanceMeasure