タグ

DTMとRに関するni66lingのブックマーク (2)

  • トピックモデルシリーズ 7 DTM (Dynamic Topic Model) の一種

    最後はおまけでLDAに時系列を組み合わせた実装を試してみたので紹介します。 今まで「文書」と呼んできたものを「ユーザー」、「単語」と呼んできたものを「アクセスしたWebページ(≒アクション)」と考えます。ユーザーが1日目~31日目までV種類のWebページにアクセスしたデータがあるとします。そしてユーザーの興味のあるトピックの分布(トピック混合比)が時間によって変化すると考えます。ある人は興味が移りやすく、またある人は移りにくいでしょう。そんな状況をモデリングします。 この記事の表記は以下です。1人あたり1時刻あたり150アクションぐらいというデータです(記事の最後にデータを生成したRコードを載せてあります)。 グラフィカルモデルは以下になります。 トピックごとの単語分布に比べて個々人のトピック混合比の方が移り変わるスピードが速いと考えられますので、今回は単語分布はどのタイムポイントでも同じ

    トピックモデルシリーズ 7 DTM (Dynamic Topic Model) の一種
  • トピックモデル - 驚異のアニヲタ社会復帰の予備

    Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。 最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハーレムを築くような物へ移り変わっているような気がするが、物語自体のトピックを推定・分類して、流行り廃りをDynamic Topin Model(DTM)を用いて解析して遊んでみたらしい。 結果としては異世界でオレTSUEEEEEEEEE!!物が流行っているという結果だった。オレらの感触と全く同じようにデータが物語っているので、このビッグウェーブに乗り遅れないようにオレも明日からラノベ書くわ!! Rではlda, topicmodelsパッケージが使えるようで、お互いに互換性のあるクラスのようである。こちらでldaを使っていた

    トピックモデル - 驚異のアニヲタ社会復帰の予備
  • 1