このシリーズのメインともいうべきLDA([Blei+ 2003])を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。 グラフィカルモデルは以下になります(左: LDA, 右(参考): 前回のUM)。 見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような
![トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)](https://cdn-ak-scissors.b.st-hatena.com/image/square/7d5b641788ed3d75140d28b0f0efc0a85dec2865/height=288;version=1;width=512/http%3A%2F%2Fblog-imgs-67.fc2.com%2Fh%2Fe%2Fa%2Fheartruptcy%2FLDA_model_s.png)