tnalのブックマーク / 2013年9月7日 - はてなブックマーク

tnal id:tnal

2013年9月7日のブックマーク (2件)

Random Projectionを試す - Negative/Positive Thinking
はじめに言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して、行列Xをかけることで次元を落とすことができる X_rp = R * X また、このRの各要素がN(0,1)の正規乱数の場合、各列ベクトル間のユークリッド距離をできるだけ保ったまま、次元削減できることが証明されているこの乱数行列Rの作り方として、以下が提案されている Rの各要素r_ijについて、以下の近似を用いる 1/6の確率で、r_ij = sqrt(3) 2/3の確率で、r_ij = 0 1/6の確率で、r_ij = -sqrt(3) 準備ドキュメント群からcos類似度の近い文書を検索するということを、次元削
tnal 2013/09/07
nlp

feature engineering
リンク
A Biterm Topic Model for Short Texts(WWW 2013) 読んだ - 糞糞糞ネット弁慶
A Biterm Topic Model for Short Texts(WWW 2013) 概要 LDAやPLSIは文書中の単語が少ない時にうまくいかない．なぜならば文書ごとにトピックの分布があって，それによって単語が生成されるという仮定があるからだ．提案する Biterm Topic Model(BTM) ではトピックの分布は文書全体に対して存在していて，そこから各文書に対して2語(biterm)が生成されると仮定する．すごく大雑把に言えば，通常のLDAではトピックにおける単語の出現確率と，文書におけるトピックの出現確率が学習されるが，今回のBTMではトピックにおける単語の出現確率が学習されるのは共通しているが，トピックの出現確率はとなっていて，文書を引数に取らず，全文書に対して計算される．手法 Gibbs sampling は次のように行う．シンプル．論文中にのnotation
tnal 2013/09/07
LDA

shorttext

LSI

nlp
リンク
- 2013年9月11日
- 2013年9月7日
- 2013年9月6日