タグ

クラスタリングに関するseikoudoku2000のブックマーク (2)

  • NCDで何でもクラスタリング

    正規化圧縮距離という概念がある。英語では Normalized Compression Distance、略してNCDという。 この概念は情報の距離を測るメジャーとして使うことができる。 では情報の距離とは何か。それはデータの類似度で測る距離である。 データXとデータYという2つのデータがあったとき、XとYの類似度を考えてみよう。 類似度すなわち「似ている度合い」を距離に見立て、XとYが似ていれば「近い」、そしてXとYがかけ離れたデータであって全く似ていなければ「遠い」というわけだ。 NCDでは、データの類似度を計算するために、そのデータが持つ情報量を使う。 NCDの凄いところは、基的にデータの情報量のみに依存しているので「その対象は何でも構わない」という点にある。 すなわち、テキスト文書だろうが、画像や音楽のデータだろうが、はたまたDNAシーケンスだろうが、システムログだろうが、データ

  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

  • 1