タグ

ブックマーク / gnarl.hatenadiary.org (2)

  • ヤバゲータウンの確率論 - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

    2010年9月22日12時50分〜9月23日21時30分の間、一部のお客様のモバゲータウンのユーザIDに紐づくページ(マイページを含む)に、他のお客様がアクセスできる状態 となっており、単体では個人が特定できない情報ではありますが性別・地域等の一部の登録情報の閲覧その他の利用ができる可能性がありました。事象により、情報の閲覧がされたお客様と情報の閲覧をしたお客様の組み合わせの数は最大で38組の可能性があり、現在までに閲覧されたことが確認できているのは3名、閲覧できたことが確認できているのは7名です。 http://yahoo-mbga.jp/page/guide/201009_report.html ID登録処理時における誤ったシステム設定により、入会前のお客様に一時的に付与する仮IDがごく稀に重複してしまうことがあり、障害が発生いたしました。対策として、この仮IDが重複することがない

    ヤバゲータウンの確率論 - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
  • コサイン距離ベースのLSHをRubyで - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

    参考文献:Web+DB press vol.49 レコメンド特集のPart3など。 アルゴリズムの概要 詳細(特に数学的な)はぐぐれ。 モチベーションとしては、高次元における近傍点探索を高速で行いたい。まじめにやるとどう工夫しても計算量がすごいことになるので、近似で。 どうするかというと、「距離が近いと同じような値になるハッシュ関数」を使う。あるベクトルの近傍を求めたい場合、そのベクトルのハッシュと同じ(もしくは近い)値のハッシュを持つベクトルをテーブルから引いてきて返す。計算量がどうなるかはややこしいけど、とりあえず全部探すよりは速い。 で、どういう関数をハッシュとするのか。これは距離の定義によって異なる。ハミング距離、コサイン距離、ユークリッド距離などにはそういった関数の存在が知られている。 コサイン距離の場合、ランダムなベクトルをいくつか用意して、入力されたベクトルがそれらと似ている

    コサイン距離ベースのLSHをRubyで - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
  • 1