タグ

ブックマーク / d.hatena.ne.jp/blanc_et_noir (1)

  • Similarity Joinの話 - |ω・)ノ <黒猫の気まぐれ日記

    何か論文読んで,それについて発表するという授業があるのですが,そこでSimilarity Joinについて調べたのでここにメモします.●Similarity Joinって何?すごく大雑把に言うと,類似しているものを結合すること.そのまんまですね.例えば,上図のように4つのタプルがあったら,それぞれ類似しているもの同士でJoinします.普通は閾値を与えて,類似度が閾値以上であれば類似していると判断し,Joinします.#出力の部分は出力例であり,実際には他の組み合わせも出力されうると思います●類似しているってどうやって判断するの?Similarity Joinを行うためには,類似度の高い組み合わせを見つける必要があります.類似度を算出する方法はよく使われる手法がいくつかあります.(Jaccard, cosine, overlapなどなど)他にも,距離という概念でみると,Hamming dist

  • 1