タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

shorttextとLSIに関するtnalのブックマーク (1)

  • A Biterm Topic Model for Short Texts(WWW 2013) 読んだ - 糞糞糞ネット弁慶

    A Biterm Topic Model for Short Texts(WWW 2013) 概要 LDAやPLSIは文書中の単語が少ない時にうまくいかない.なぜならば文書ごとにトピックの分布があって,それによって単語が生成されるという仮定があるからだ. 提案する Biterm Topic Model(BTM) ではトピックの分布は文書全体に対して存在していて,そこから各文書に対して2語(biterm)が生成されると仮定する. すごく大雑把に言えば,通常のLDAではトピックにおける単語の出現確率と,文書におけるトピックの出現確率が学習されるが,今回のBTMではトピックにおける単語の出現確率が学習されるのは共通しているが,トピックの出現確率はとなっていて,文書を引数に取らず,全文書に対して計算される. 手法 Gibbs sampling は次のように行う.シンプル.論文中にのnotation

    A Biterm Topic Model for Short Texts(WWW 2013) 読んだ - 糞糞糞ネット弁慶
  • 1