こんにちは。次世代システム研究室のJK(男)です。 これまではDeep Learning系の話をしてきましたが、今回はちょっと目線を変えてトピックモデルの話をしたいと思います。トピックモデルはちょっと前に話題になったモデルで、取得した結果がわかりやすいというところが魅力的かなーと思います。今回の内容は、(1) トピックモデルと(2) LDAについて簡単に説明したあと、(3) python libraryのgensimを用いてWikipediaの文章についてLDAでモデル化します。(4) 最後に得られた結果を考察します。 1. トピックモデルとは トピックモデルとは、ざっくり言えばある文章をトピックごとの成分に情報圧縮するモデルです。ちゃんと理解したい人は教科書(これとかこれ)を読むことをお薦めします。ただいきなり読むと挫折する可能性があるので、ここでは教科書への架け橋的な説明をしてみます(