はじめに 言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。 次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは 乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して、行列Xをかけることで次元を落とすことができる X_rp = R * X また、このRの各要素がN(0,1)の正規乱数の場合、各列ベクトル間のユークリッド距離をできるだけ保ったまま、次元削減できることが証明されている この乱数行列Rの作り方として、以下が提案されている Rの各要素r_ijについて、以下の近似を用いる 1/6の確率で、r_ij = sqrt(3) 2/3の確率で、r_ij = 0 1/6の確率で、r_ij = -sqrt(3) 準備 ドキュメント群からcos類似度の近い文書を検索するということを、次元削
![Random Projectionを試す - Negative/Positive Thinking](https://cdn-ak-scissors.b.st-hatena.com/image/square/f7d39e8fa3d7dfdf34a418595c00c648093028db/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fj%2Fjetbead%2F20130907%2F20130907155309.png)