ブックマーク / niegh.hatenadiary.org (1)

  • いろいろな類似度 - nieghの日記

    協調フィルタリグとか、テキストマイニング、クラスター分析などで よく出てくる共起性とか類似性とかの いろいろ ・共起頻度 - 集合表記:   |A ∩ B| (共起している要素の数) - ベクトル表記: Va・Vb (内積) Σ(a_i*b_i)なので、各次元の値が{0,1}で 1が<起こった>なら 共起個数を数えているに等しい。 ・ユークリッド距離: 単純だが現実のデータ間の類似度が表現できないと言われている。なぜ??。 正規化されてればOKだそうだ。 - ベクトル表記: |Va - Vb| √( Σ(a_i - b_i)^2 )  :CityBlock距離でやることも ・標準化ユークリッド距離 ・Karl Pearson距離(scaled Euclidean距離) - 標準偏差でユークリッド距離を基準化 ・cosine距離 - 集合表記:   |A ∩ B| / |A|*|B| - ベ

    いろいろな類似度 - nieghの日記
    ceekz
    ceekz 2008/11/04
    コサイン尺度以外の指標を求めて。
  • 1