DBCLSの皆様がno titleに行っておりバイト先閉鎖で仕事もできないので、実装の続きをする。 論文はDetecting near-duplicates for web crawling。 で論文をもう一度読みなおしてみるとhashのランダムなビットシャッフルとソートの作業がこの論文には書かれていなかったのでもう一度まともに実装をする。 この論文ではまずデータをf-bitのハッシュ値で表現してストアしておく。その後受け取ったクエリをf-bitのハッシュ値で表現してストアしてあるデータのハッシュ値とハミング距離がk以下のものを列挙する、といった操作を行う。その際、ストアしてあるデータのハッシュを全て読むのではなく、テーブルという単位で区切る。そしてテーブル単位でマッチするデータを探してハミング距離を計算する。 本来ならばこの部分はparallelにやると書いてあったり、その後にハッシュの