[B! simhash] sleepy_yoshiのブックマーク

sleepy_yoshi id:sleepy_yoshi

simhashに関するsleepy_yoshiのブックマーク (1)

TinySimHashの実装の続き & 今度は論文通りに実装する - 糞ネット弁慶
DBCLSの皆様がno titleに行っておりバイト先閉鎖で仕事もできないので、実装の続きをする。論文はDetecting near-duplicates for web crawling。で論文をもう一度読みなおしてみるとhashのランダムなビットシャッフルとソートの作業がこの論文には書かれていなかったのでもう一度まともに実装をする。この論文ではまずデータをf-bitのハッシュ値で表現してストアしておく。その後受け取ったクエリをf-bitのハッシュ値で表現してストアしてあるデータのハッシュ値とハミング距離がk以下のものを列挙する、といった操作を行う。その際、ストアしてあるデータのハッシュを全て読むのではなく、テーブルという単位で区切る。そしてテーブル単位でマッチするデータを探してハミング距離を計算する。本来ならばこの部分はparallelにやると書いてあったり、その後にハッシュの
sleepy_yoshi 2010/12/09
simhash
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx