k-means法は、非階層的クラスタリングの代表的な手法ですごく便利ですが、使って行く上で、以下の2つが問題になってきます。 初期値がランダムなので、結果がぶれる 最適なクラスタ数が分からない この2つの弱点に対して拡張版や手法が提案されていますが、すごくシンプルな方法で解決するパッケージを作ってみました。 その名もykmeansパッケージ・・・! http://cran.r-project.org/web/packages/ykmeans/index.html ※改良とか拡張とかしてるわけではないので、kmeans2とか付けるのは自重した このパッケージは、上記の二つの問題に対して、以下のアプローチで対応しています。 N回(デフォルトは100)実行して、一番分類されたクラスタを採用する 任意の変数のクラスタ内分散の平均値が小さくなるクラスタ数を採用する N回実行して一番多く分類されたクラ
![kmeansで楽できる(かもしれない)パッケージを作った - yokkunsの日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/fb8c6a8ccba6aa4bbccd5b185e5779cf6186dc83/height=288;version=1;width=512/http%3A%2F%2Fi.gyazo.com%2Fa32a20645d641732e371fdb864a04cc4.png)