Python Orangeを用いたクラスタリング分析についてまとめる。クラスタリング分析はアンケートの回答データや、顧客行動データのパターン抽出などによく用いていた。データに存在するいくつかのパターンを感じられるだけでも実務では安心できるので、特に初期分析で重宝している。 ■ライブラリ >>> import Orange ■分析データ >>> adult = Orange.data.Table('./data/adult.txt') #質的変数混在でも欠損データがあっても処理可能 ■クラスタ分析の実施 まずは、クラスタ数3、初期重心をランダム(デフォルトのため特にコーディング不要)としてKmeansを実施をした。 >>> km = Orange.clustering.kmeans.Clustering(adult, centroids = 3) >>> print km.clusters[