入力データを用意する サンプルデータを確認する 前回はセグメンテーション分析の理論編として、セグメンテーション分析と代表的なクラスタリングアルゴリズムであるK-MeansとCanopyクラスタリングについて解説しました。 今回は、実践編として、K-MeansとCanopyクラスタリングによるセグメンテーション分析をMahoutを用いて実際に行います。 なお、本連載の3回目同様、Mahoutのバージョンは現時点の最新版である0.7を対象とします。 今回利用するサンプルデータは、ARFF形式[1]で顧客のRFMが記載されています。@DATA以降が、実際のデータです。 サンプルデータ 今回のデータは、以下のような構造になっています。 1行が顧客1人のデータを意味する カンマ区切りで、左から「R(最終購買日)」「F(購買頻度)」「M(購入金額)」を表す (省略) @DATA 顧