タグ

algorithmとclusteringに関するvvwashikaのブックマーク (3)

  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • 混合分布に対する EM アルゴリズム・ EM algorithm for Mixture models (赤穂 昭太郎 / Shotaro Akaho)

    混合分布に対する EM アルゴリズム (テスト バージョン) last ufpdated : 2001 Oct 12 与えられた学習データに最もフィットするように学習を行ないます. 学習には EM アルゴリズムを使っていますので, 必ずしも最適解には収束せず, 局所解につかまることもあります. EM アルゴリズムはこのような複数モジュールの学習に向いたアルゴリズムです. 使用法 "GaussMix" か "LineMix" を切替えると正規分布学習か 複数直線学習かを選べます. 画面中でクリックした点が学習データ点になります. "RandomPts"をクリックすると一様分布で点がばらまかれます. "ClearPts"をクリックすると点がクリアされます. 1 から 5 までで正規分布や直線の数を選びます. "InitKernels" を押すと正規分布や直線をランダムに初期化します. EM

  • 1