タグ

plsiとLDAに関するyassのブックマーク (2)

  • トピックモデルメモ - Negative/Positive Thinking

    はじめに トピックモデルについてメモ。 トピックモデルとは 文書は、何らかの話題について書かれていたりする 「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられる トピックモデルは、文書から「何らかの話題(=トピック)」を発見するための統計的なモデルのこと トピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

    トピックモデルメモ - Negative/Positive Thinking
  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
  • 1