概要 主成分分析(PCA, Principal Component Analysis) をクラスター分析と組み合わせて、高次の次元で定義されたデータを2次元空間データで表現する方法を、python3 で見ていく。また、類似のグループまたはクラスタのデータを検索し、データ内に隠れた関係を見つける。 キーワードの復習 PCAとは PCAは主成分(principal component)を見つけることによってデータの次元を低下させる。 データセット元の特徴または変数を主成分に基づいて、縮小されたセットに変換することにより、データの分散を最大化するの最小の変数が得られます。 新しい変数が2つしかない場合、データ内の各サンプルを散布図などの2次元チャートで表すことができます。 クラスタリング 教師なしデータの分析技術として、クラスタリングは、その変数に基づいて「近接したデータサンプル」を編成する。