State of ModelOps 2022 The State of ModelOps report offers compelling insights into emerging challenges, trends, and strategies.
1 Finding Near Duplicates (Adapted from slides and material from Rajeev Motwani and Jeff Ullman) Set Similarity � Set Similarity (Jaccard measure) � View sets as columns of a matrix; one row for each element in the universe. aij = 1 indicates presence of item i in set j � Example j i j i j i J C C C C ) C , (C sim U I = C1 C2 0 1 1 0 1 1 simJ(C1,C2) = 2/5 = 0.4 0 0 1 1 0 1 Identifying Similar Sets
年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ
MinHash法を使ったクラスタリング ユーザ毎のクリックページや購入商品など,ユーザに紐付けられたデータに対して,お互いのアイテムの共通性から,ユーザをクラスタリングする手法のひとつ. K-means法など伝統的なクラスタリングとは異なり,非常に小さい多数のクラスタに分かれやすい. 実行するごとに,乱数を発生させており,かなり異なるクラスタが作られるので,1ユーザに何通りものクラスタを与えることができる. ***************************************************************** MinHash.sas MinHash法によるクラスタリング 20080706 翔 *****************************************************************; options nocenter co
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く