タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

topic modelに関するyskn67のブックマーク (1)

  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
  • 1