[B! PLSA] seikennのブックマーク

seikenn id:seikenn

PLSAに関するseikennのブックマーク (2)

probabilistic latent semantic analysis - 機械学習の「朱鷺の杜Wiki」
probabilistic latent semantic analysis (pLSA)† 文書と単語など，離散2変数の計数データの生成モデル．文書(document)：\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\)，語(word)：\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\)，潜在変数の話題(topic)：\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは，文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mat
seikenn 2011/01/20
PLSA
リンク
PythonでPLSAを実装してみる
probabilistic latent semantic analysis (PLSA)は、・文書dがP(d)で選ばれる・潜在変数zがP(z|d)で選ばれる・語wがP(w|z)で生成されるというプロセスを経て、結果として(d,w)のペアが観測されるという文書と語の生成モデル。式で表すと (1) となる。P(d,w)の尤もらしい確率分布を見つけたい。対数尤度関数は (2) となる。n(d,w)は語wが文書dに出現する回数。この式は訓練データn(d,w)（;どの語がどの文書に何回出現したか）が尤もらしい確率分布P(d,w)に従うとき最大になる。ベイズの定理を用いると (3) となることを利用して、この尤度関数を最大化するためにEMアルゴリズムを用いて実装してみる。（過学習を回避するために文献ではTempered EM (TEM)を用いている。）尤度関数が収束するまで以下のE-ste
seikenn 2011/01/20
PLSA
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx