タグ

ブックマーク / easy.mri.co.jp (1)

  • NCDで何でもクラスタリング

    正規化圧縮距離という概念がある。英語では Normalized Compression Distance、略してNCDという。 この概念は情報の距離を測るメジャーとして使うことができる。 では情報の距離とは何か。それはデータの類似度で測る距離である。 データXとデータYという2つのデータがあったとき、XとYの類似度を考えてみよう。 類似度すなわち「似ている度合い」を距離に見立て、XとYが似ていれば「近い」、そしてXとYがかけ離れたデータであって全く似ていなければ「遠い」というわけだ。 NCDでは、データの類似度を計算するために、そのデータが持つ情報量を使う。 NCDの凄いところは、基的にデータの情報量のみに依存しているので「その対象は何でも構わない」という点にある。 すなわち、テキスト文書だろうが、画像や音楽のデータだろうが、はたまたDNAシーケンスだろうが、システムログだろうが、データ

  • 1