DTMを行うためにコメントを文章化して lexicalize し、データ加工する。 Rに移る。w コメントは異常に多いため、w が2つ以上並ぶものは w 1つに処理する。 1つの動画に付いているコメントをつなぎあわせて文章化する。コメント 1000 以上ある動画を対象にした。というのも、10万も動画があったら解析が終わらないので、適当にコメント数を設定したら 1000 以上で 10560動画(約10%)になったからこれでいっかって。 wd <- "/niconico/output/" ### あるコメント数を超えている動画だけ対象とする metafile <- read.delim(paste(wd, "meta.txt", sep="")) idx <- which(metafile$comment_counter > 1000) commentfile <- paste(metafil
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 購買データや科学論文など、時間変化をそも そも内包するデータは多数存在します • 従って、時系列(時間変化)データ内のトピッ クの解析も多数試みがなされています 2 3 2012 201301/15 01/16 • マルコフ性:前の時刻に依存して現在の時刻 の状態が変化する • 多くの時系列データでは、モデルのどの部分 にマルコフ性のアイデアを導入するか、がポ イントとなります • これはトピックモデルの時系列データモデル でも同様です 4 Dynamic Topic Model [Blei & Lafferty, 2006] 5 Blei and Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. : exch
Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。 最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハーレムを築くような物へ移り変わっているような気がするが、物語自体のトピックを推定・分類して、流行り廃りをDynamic Topin Model(DTM)を用いて解析して遊んでみたらしい。 結果としては異世界でオレTSUEEEEEEEEE!!物が流行っているという結果だった。オレらの感触と全く同じようにデータが物語っているので、このビッグウェーブに乗り遅れないようにオレも明日からラノベ書くわ!! Rではlda, topicmodelsパッケージが使えるようで、お互いに互換性のあるクラスのようである。こちらでldaを使っていた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く