K-Meansクラスタリングは、機械学習で最もよく知られ、一般的に使用されているクラスタリングアルゴリズムの1つです。具体的には、教師なし機械学習アルゴリズムです。つまり、グラウンドトゥルースラベルを必要とせずにトレーニングされます。実際、それを使用するために必要なのは、必要なクラスターの数Kを設定し、Kの重心を初期化することだけです。その後、アルゴリズムを実行してクラスを取得できます。 K-Meansの美しさは、その単純さにあります。実際に行うのは、点とグループの中心の間の距離を計算することだけであり、線形の複雑さO(n)になります。これは、何百万ものデータポイントを処理していないほとんどのデータセットで完全に正常に機能します。 しかし、ここで問題が発生します。比較するデータポイントが非常に多いため、大きなデータセットに関してはK-Meansが遅くなります。さらに悪いことに、K-Mean