最後はおまけでLDAに時系列を組み合わせた実装を試してみたので紹介します。 今まで「文書」と呼んできたものを「ユーザー」、「単語」と呼んできたものを「アクセスしたWebページ(≒アクション)」と考えます。ユーザーが1日目~31日目までV種類のWebページにアクセスしたデータがあるとします。そしてユーザーの興味のあるトピックの分布(トピック混合比)が時間によって変化すると考えます。ある人は興味が移りやすく、またある人は移りにくいでしょう。そんな状況をモデリングします。 この記事の表記は以下です。1人あたり1時刻あたり150アクションぐらいというデータです(記事の最後にデータを生成したRコードを載せてあります)。 グラフィカルモデルは以下になります。 トピックごとの単語分布に比べて個々人のトピック混合比の方が移り変わるスピードが速いと考えられますので、今回は単語分布はどのタイムポイントでも同じ
![トピックモデルシリーズ 7 DTM (Dynamic Topic Model) の一種](https://cdn-ak-scissors.b.st-hatena.com/image/square/a80e9b45b8c0d9ed1db72ed6f41f7c9306d0d023/height=288;version=1;width=512/http%3A%2F%2Fblog-imgs-67.fc2.com%2Fh%2Fe%2Fa%2Fheartruptcy%2FDTM_graphical_model_s.png)