協調フィルタリグとか、テキストマイニング、クラスター分析などで よく出てくる共起性とか類似性とかの いろいろ ・共起頻度 - 集合表記: |A ∩ B| (共起している要素の数) - ベクトル表記: Va・Vb (内積) Σ(a_i*b_i)なので、各次元の値が{0,1}で 1が<起こった>なら 共起個数を数えているに等しい。 ・ユークリッド距離: 単純だが現実のデータ間の類似度が表現できないと言われている。なぜ??。 正規化されてればOKだそうだ。 - ベクトル表記: |Va - Vb| √( Σ(a_i - b_i)^2 ) :CityBlock距離でやることも ・標準化ユークリッド距離 ・Karl Pearson距離(scaled Euclidean距離) - 標準偏差でユークリッド距離を基準化 ・cosine距離 - 集合表記: |A ∩ B| / |A|*|B| - ベ