タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

simhashに関するsleepy_yoshiのブックマーク (1)

  • TinySimHashの実装の続き & 今度は論文通りに実装する - 糞ネット弁慶

    DBCLSの皆様がno titleに行っておりバイト先閉鎖で仕事もできないので、実装の続きをする。 論文はDetecting near-duplicates for web crawling。 で論文をもう一度読みなおしてみるとhashのランダムなビットシャッフルとソートの作業がこの論文には書かれていなかったのでもう一度まともに実装をする。 この論文ではまずデータをf-bitのハッシュ値で表現してストアしておく。その後受け取ったクエリをf-bitのハッシュ値で表現してストアしてあるデータのハッシュ値とハミング距離がk以下のものを列挙する、といった操作を行う。その際、ストアしてあるデータのハッシュを全て読むのではなく、テーブルという単位で区切る。そしてテーブル単位でマッチするデータを探してハミング距離を計算する。 来ならばこの部分はparallelにやると書いてあったり、その後にハッシュの

  • 1