クラスター分析は 距離行列の生成(類似度行列ではない!) クラスタリングの実行 という流れになる。 それぞれのステップで、採用する 距離の種類 クラスタリングの方法 がチューニング変数となる。 この順に手順を見ていく。 行数、列数の多いビッグデータ向きのデータ形式であるMatrixパッケージに対応した距離行列についても説明する。 距離行列を生成する 類似度行列ではなく距離行列を作る。similarityではなくdistanceを作る。 直感的にはデータから距離の指標(どれだけ離れているか)ではなく類似度(どれだけ近いか)の指標を抽出し、そこからクラスタリングしたいケースが多いのだが、あくまで類似度指標に基づいた距離行列を生成するのである。 通常のdist関数では対応する距離の種類が少ないのでproxyパッケージを使う。 距離行列を生成するメソッドはdist(data, method="距離
![Rでクラスター分析〜距離行列の生成からクラスタリングまで – marketechlabo](https://cdn-ak-scissors.b.st-hatena.com/image/square/24e6572e2756d71e45959d5500e3289a8d31a7e7/height=288;version=1;width=512/https%3A%2F%2Fwww.marketechlabo.com%2Fimages%2Fanalytics%2Fpca_kmeans.png)