最後はおまけでLDAに時系列を組み合わせた実装を試してみたので紹介します。 今まで「文書」と呼んできたものを「ユーザー」、「単語」と呼んできたものを「アクセスしたWebページ(≒アクション)」と考えます。ユーザーが1日目~31日目までV種類のWebページにアクセスしたデータがあるとします。そしてユーザーの興味のあるトピックの分布(トピック混合比)が時間によって変化すると考えます。ある人は興味が移りやすく、またある人は移りにくいでしょう。そんな状況をモデリングします。 この記事の表記は以下です。1人あたり1時刻あたり150アクションぐらいというデータです(記事の最後にデータを生成したRコードを載せてあります)。 グラフィカルモデルは以下になります。 トピックごとの単語分布に比べて個々人のトピック混合比の方が移り変わるスピードが速いと考えられますので、今回は単語分布はどのタイムポイントでも同じ
タグ解析 水樹奈々が多い。2010年以降は新人が増えたので各声優のタグ占有割合は減少している。 近年では豊崎愛生、花澤香菜の伸びがすごい。 トピック解析 原稿にあったトピックを簡単に掲載する。本文は第二号をチェック。 トピック 2:アイマスラジオ・中村繪里子 単語としてはラジオ、中村が多い。動画はアイドルマスターラジオ、おどろき戦隊モモノキファイブシリーズ。 トピック 5:中の人MAD ちょw、おまw、これはひどい。動画は八九寺に QB を混ぜる勇気、けいおん!のあずにゃんがこんなにウザいわけがないシリーズ。 トピック 10:田村ゆかりと水樹奈々 ゆかりんと奈々さん。動画は田村ゆかりのいたずら黒うさぎ、水樹奈々スマイルギャング。 トピック 11:声優自身がやらかしてしまってひどい これはひどい、?????、意味、変態など。トピック5と重複するように見えるが、動画は金朋地獄、CHAOS;HE
DTMを行うためにコメントを文章化して lexicalize し、データ加工する。 Rに移る。w コメントは異常に多いため、w が2つ以上並ぶものは w 1つに処理する。 1つの動画に付いているコメントをつなぎあわせて文章化する。コメント 1000 以上ある動画を対象にした。というのも、10万も動画があったら解析が終わらないので、適当にコメント数を設定したら 1000 以上で 10560動画(約10%)になったからこれでいっかって。 wd <- "/niconico/output/" ### あるコメント数を超えている動画だけ対象とする metafile <- read.delim(paste(wd, "meta.txt", sep="")) idx <- which(metafile$comment_counter > 1000) commentfile <- paste(metafil
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 購買データや科学論文など、時間変化をそも そも内包するデータは多数存在します • 従って、時系列(時間変化)データ内のトピッ クの解析も多数試みがなされています 2 3 2012 201301/15 01/16 • マルコフ性:前の時刻に依存して現在の時刻 の状態が変化する • 多くの時系列データでは、モデルのどの部分 にマルコフ性のアイデアを導入するか、がポ イントとなります • これはトピックモデルの時系列データモデル でも同様です 4 Dynamic Topic Model [Blei & Lafferty, 2006] 5 Blei and Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. : exch
Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。 最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハーレムを築くような物へ移り変わっているような気がするが、物語自体のトピックを推定・分類して、流行り廃りをDynamic Topin Model(DTM)を用いて解析して遊んでみたらしい。 結果としては異世界でオレTSUEEEEEEEEE!!物が流行っているという結果だった。オレらの感触と全く同じようにデータが物語っているので、このビッグウェーブに乗り遅れないようにオレも明日からラノベ書くわ!! Rではlda, topicmodelsパッケージが使えるようで、お互いに互換性のあるクラスのようである。こちらでldaを使っていた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く