K-means法(K平均法)を用いてクラスタリングする場合は、あらかじめクラスタ数を指定する必要があります。 このときのクラスタ数をどのように決めてよいか迷ったことはないでしょうか。 ここでは、K-means法のクラスタ数を機械的に決定する方法をお伝えします。 K-means法のクラスタ数を機械的に決定するために用いるのが、Gap統計量です。 Gap統計量を用いたクラスタ数の決定のアイディアを簡単にご紹介すると、クラスタ数1、2、・・・と順に、一様分布から作成されたクラスタ内の距離の平均と元データのクラスタ内の距離の平均とを比べて、より密集しているクラスタ数を採用するという方法になります。 詳しくは、Estimating the number of clusters in a data set via the gap statisticをご参照ください。 ここからは、Rを用いて具体的に見て