クラスタリングの意義と目的 昨日はクラスタリングの概要と scikit-learn を使って実際にクラスタリングをする流れを説明しました。 scikit-learn によるクラスタリング (1) ここで基本に立ち返りそもそもクラスタリングとは何なのかを探っていきます。 多くの機械学習のアルゴリズムでは、特徴量 (素性) をベクトルで表現します。 線形代数では和とスカラー積が内部で定義されている集合をベクトル空間、その要素をベクトルと言います。 クラスタリングとはすごくざっくり言うと、特徴量同士がどれくらい似ているかを計算、似たものをグルーピングしようという方法です。 元データが文字だろうが画像だろうが、パターンを認識して特徴量に落とした時点で、教師となるデータを与えることなく、グルーピングができるようになるわけですね。 たとえば不特定多数のアンケート回答を似た者同士で寄せ集めたり、画像の肌