Canon 2012年9月13日 トピックモデル概論 東京工業大学 計算工学専攻 杉山 将 sugi@cs.titech.ac.jp http://sugiyama-www.cs.titech.ac.jp/~sugi/ 概要 文書のモデル化は,自然言語処理や 機械学習の分野で盛んに研究されて いる 本講義では,文書のモデル化技術の 発展の経緯を概観する 2 講義の流れ 1. 2. 3. 4. 5. 6. 潜在意味解析(LSA) 多項混合(MM)モデル ポリヤ混合(PM)モデル 確率的潜在意味解析(pLSA)モデル 潜在的ディリクレ配分(LDA)モデル 拡張LDAモデル 3 文書単語行列 :全文書データ(文書数 :文書(長さ ) :単語(語彙数 ) :文書 中の単語 の出現回数を 要素に持つ文書単語行列 (大きさ ,一般にスパース) ) 4 潜在意味解析(LSA) 文書