[B! lda] a_bickyのブックマーク

Videolectures

a_bicky 2013/03/06

Blei 先生の講義

lda

リンク

LDAにおける変分ベイズ法によるパラメータ推定 (1) 正田備也平成 18 年 8 月 18 日 LDA (Latent Dirichlet Allocation) は、ひとつの文書が複数のトピックを含むことを表現できる確率的な文書モデル��

LDAにおける変分ベイズ法によるパラメータ推定 (1) 正田備也平成 18 年 8 月 18 日 LDA (Latent Dirichlet Allocation) は、ひとつの文書が複数のトピックを含むことを表現できる確率的な文書モデルのひとつである。変分ベイズ法は、ある程度複雑な確率的文書モデル m において、それによって生成されたと見なされている文書集合 D = {d1, . . . , } について、事後分布 P(D|m) を求めるのが非常に難しいときに使われる方法である。文書モデル m のパラメータ群を θ とし、隠れ変数群（文書モデルの場合、トピックを表す変数群であることが多い）を Z とすると、変分ベイズ法の基本は、次の Jensen の不等式にある。 log P(D|m) = log P(Z, D, θ|m)dθdZ (1) = log Q(Z, θ) P(

a_bicky 2013/02/12

LDA における変分ベイズ法によるパラメータ推定 (1) (PDF)

lda
nlp

リンク

http://yattemiyou.net/docs/lda_gibbs.pdf

a_bicky 2013/02/11

これも良さげ / LDA (Latent Dirichlet Allocation) の更新式の導出 (PDF)

lda
nlp

リンク

LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足

Latent Dirichlet Allocations(LDA) の実装について - 木曜不足にも出てくるこの式を導出してみる。この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか？導出に必要な道具は次の2つ。ガン

a_bicky 2013/02/11

lda
nlp

リンク

Latent Dirichlet Allocation in R

Topic models are a new research field within the computer sciences information retrieval and text mining. They are generative probabilistic models of text corpora inferred by machine learning and they can be used for retrieval and text mining tasks. The most prominent topic model is latent Dirichlet allocation (LDA), which was introduced in 2003 by Blei et al. and has since then sparked off the de

a_bicky 2013/02/11

いつか読むかも / Latent Dirichlet Allocation in R (PDF)

lda
r

リンク

PythonでLDAを実装してみる

Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=

a_bicky 2013/02/11