タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

機械学習に関するsudixのブックマーク (2)

  • 第5回 K-MeansとCanopyクラスタリングでセグメンテーション分析を行う | gihyo.jp

    入力データを用意する サンプルデータを確認する 前回はセグメンテーション分析の理論編として、セグメンテーション分析と代表的なクラスタリングアルゴリズムであるK-MeansとCanopyクラスタリングについて解説しました。 今回は、実践編として、K-MeansとCanopyクラスタリングによるセグメンテーション分析をMahoutを用いて実際に行います。 なお、連載の3回目同様、Mahoutのバージョンは現時点の最新版である0.7を対象とします。 今回利用するサンプルデータは、ARFF形式[1]で顧客のRFMが記載されています。@DATA以降が、実際のデータです。 サンプルデータ 今回のデータは、以下のような構造になっています。 1行が顧客1人のデータを意味する カンマ区切りで、左から「R(最終購買日⁠)⁠」⁠「⁠F(購買頻度⁠)⁠」⁠「⁠M(購入金額⁠)⁠」を表す (省略) @DATA 顧

    第5回 K-MeansとCanopyクラスタリングでセグメンテーション分析を行う | gihyo.jp
  • 第3回 Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp

    HadoopとMahoutをインストールする Hadoopのバージョンに注意 前回はマーケットバスケット分析の理論編として、アソシエーション分析とアプリオリアルゴリズムについて解説しました。今回は実践編として、Mahoutが実装しているアプリオリアルゴリズムを改良したFP-Growthを用いて、実際にマーケットバスケット分析を行ってみましょう。 そのための準備として、まずMahoutとHadoopをインストールする必要がありますが、 その際1つ注意する点があります。現在のMahoutの最新バージョンである0.7は、利用するHadoopのバージョンが0.20系である必要があります。しかし、Apacheの公式サイトからはすでにHadoopのバージョン0.20をダウンロードすることはできません。 Hadoopのバージョン0.20をお持ちでない方は、Cloudera社のページからダウンロードするこ

    第3回 Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp
  • 1