タグ

2009年11月29日のブックマーク (2件)

  • WEB+DB PRESS Vol.49 を読んで Spectral Hashing について考える - 武蔵野日記

    前の Key-Value Store 勉強会でO 野原くんに勧められた Spectral Hashing の論文(NIPS 2008)も読んでみた。前もスペクトラルクラスタリングについて書いたが、要はグラフ分割の問題に落とし込んで、厳密に分割を求めようとすると NP 困難なので、制約を少し緩和して k 個の固有ベクトルを求める問題に帰着して近似解を求める、というもの。主成分分析のように重要な軸から順番に次元抽出して圧縮するので、非常にシンプルな方法だが、高い性能を得られそうであり、実際その通りだそうだ。 具体的に実験を見てみると、人工データと現実のデータの両方で比較実験しており、いずれも Locality Sensitive Hashing (LSH) と Restricted Boltzmann Machine (RBM) より遙かにいい性能を得られるそうである。かなり impressi

    WEB+DB PRESS Vol.49 を読んで Spectral Hashing について考える - 武蔵野日記
    petite_blue
    petite_blue 2009/11/29
    Spectral Hashing 類似度が近いほどハッシュ値が近い グラフ理論
  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記