タグ

ブックマーク / mikuhatsune.hatenadiary.com (9)

  • 確率的グラフィカルモデル - 驚異のアニヲタ社会復帰の予備

    読んだ。 確率的グラフィカルモデル 作者: 鈴木譲,植野真臣,黒木学,清水昌平,湊真一,石畠正和,樺島祥介,田中和之,村陽一,玉田嘉紀出版社/メーカー: 共立出版発売日: 2016/07/23メディア: 単行この商品を含むブログ (2件) を見るCOI:ラボにあった。編集者とは名刺交換したことがある程度。 ベイジアンネットワークのようなグラフィカルネットワークについての話はあまり詳しくないので読んだ。複数人が各章を好き勝手に書いているが、用語や記法は統一されているのでそこまで混乱しない。 統計力学とグラフィカルモデルはほとんど知らない分野だったので意味不明なところがほとんどだったが、それ以外はグラフィカルモデルの基礎と、ゲノム解析に応用した例もあり、なかなかよかった。 用語や定義を覚えていないので写経しておく。 d分離という概念が重要である。A→B→C という逐次結合の時、B の状態が

    確率的グラフィカルモデル - 驚異のアニヲタ社会復帰の予備
  • 重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備

    読んだ。 J Clin Epidemiol. 1995 Dec;48(12):1503-10. パラメータ数が のデータを標数 個観測して重回帰なりなんらかの回帰分析を行うのだが、「標数はいくつあったらいいんですか?」と聞かれることが多々ある。そういうとき、パラメータの10倍(10)あったらいいんじゃないっすかね〜(適当 と答えることが多いのだが、パラメータ数に対する標数の割合(EPV, event per variables)が10 ならいいんじゃないっすかね(適当 と言っている論文。 論文中では673人の患者に対して7つのパラメータが測定されていて、252件の死亡についてCox 回帰を行うが、データセットをすべて使えば252/7 = 36 EPV のところを、2, 5, 10, 15, 20 とEPV の割合を変えてデータセットをリサンプリングしてCox 回帰を繰り返し、パラメー

    重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備
  • 週刊少年ジャンプの掲載順位データ - 驚異のアニヲタ社会復帰の予備

    週刊少年ジャンプの掲載順位データという記事を見つけた。そこで、「早いペースで掲載順位が落ちていく漫画は打ち切られそう」という仮説があったので、どのくらいのペースで掲載順位が落ちると打ち切られるのかやってみる。 結果としては4週目以降から打ち切られるものがなんとなく分かれる感じ。 連載開始は宣伝の意味を兼ねて、第1位に掲載されるとして、その後は人気が落ち続けるというモデルを考える。単調減少ならば指数関数モデルを使えるし、ノンパラメトリックならばIsotonic regression (等調回帰とでも訳す)が使える。 打ち切りの定義としては、かなり恣意的ではあるが、半年くらいしか連載できなければ打ち切りとしてみて、24週でとりあえずやってみる。 前のリンクからデータを拝借し、2003年以前に連載されているものと、2015年20号で連載継続しているものを除外し、24週より多く連載している77作品

    週刊少年ジャンプの掲載順位データ - 驚異のアニヲタ社会復帰の予備
  • バーストモデル - 驚異のアニヲタ社会復帰の予備

    データの観測を続けているとき、ある時刻から急にデータが増えることがある。これをバーストといい、この瞬間を検出する手法があるらしい。 Rではburstsパッケージでできる。 データは時系列の累積和になっていて、時刻と間(隣り合わなくてもよい)でのバースト具合が計算できる。 新聞記事では世間の出来事に応じて記事中の言葉がかわるので、トピックのバースト具合がわかる(こちら)。 library(bursts) offsets <- c(seq(0, 400, 100), seq(410, 450, 5), seq(451, 470, 2), seq(480, 600, 5), 700, seq(710, 800, 5), 900, 1000) bursts <- kleinberg(offsets) plot(offsets, seq(offsets), type="s") plot.bursts

    バーストモデル - 驚異のアニヲタ社会復帰の予備
  • 結果 - 驚異のアニヲタ社会復帰の予備

    タグ解析 水樹奈々が多い。2010年以降は新人が増えたので各声優のタグ占有割合は減少している。 近年では豊崎愛生、花澤香菜の伸びがすごい。 トピック解析 原稿にあったトピックを簡単に掲載する。文は第二号をチェック。 トピック 2:アイマスラジオ・中村繪里子 単語としてはラジオ、中村が多い。動画はアイドルマスターラジオ、おどろき戦隊モモノキファイブシリーズ。 トピック 5:中の人MAD ちょw、おまw、これはひどい。動画は八九寺に QB を混ぜる勇気、けいおん!のあずにゃんがこんなにウザいわけがないシリーズ。 トピック 10:田村ゆかりと水樹奈々 ゆかりんと奈々さん。動画は田村ゆかりのいたずら黒うさぎ、水樹奈々スマイルギャング。 トピック 11:声優自身がやらかしてしまってひどい これはひどい、?????、意味、変態など。トピック5と重複するように見えるが、動画は金朋地獄、CHAOS;HE

    結果 - 驚異のアニヲタ社会復帰の予備
  • DTM解析 - 驚異のアニヲタ社会復帰の予備

    DTMを行うためにコメントを文章化して lexicalize し、データ加工する。 Rに移る。w コメントは異常に多いため、w が2つ以上並ぶものは w 1つに処理する。 1つの動画に付いているコメントをつなぎあわせて文章化する。コメント 1000 以上ある動画を対象にした。というのも、10万も動画があったら解析が終わらないので、適当にコメント数を設定したら 1000 以上で 10560動画(約10%)になったからこれでいっかって。 wd <- "/niconico/output/" ### あるコメント数を超えている動画だけ対象とする metafile <- read.delim(paste(wd, "meta.txt", sep="")) idx <- which(metafile$comment_counter > 1000) commentfile <- paste(metafil

    DTM解析 - 驚異のアニヲタ社会復帰の予備
  • CTM Correlated Topic Model - 驚異のアニヲタ社会復帰の予備

    LDAをやってみたわけだが、トピック間の関係も考慮したCorrelated Topic Model (CTM)というものがあるらしい。 Cでしかできない?と思っていたら、これは以前紹介したtopicmodelsパッケージでできるようだ。ldaパッケージと互換性があると以前書いたのでやってみる。 library(lda) library(topicmodels) data(AssociatedPress) data(cora.documents); data(cora.vocab) # LDA dtm0<- ldaformat2dtm(cora.documents, cora.vocab) # lda パッケージとの互換性変換っぽいやつ。cora は lda パッケージのもの lda0 <- LDA(dtm0, method="Gibbs", control=list(alpha=0.1),

    CTM Correlated Topic Model - 驚異のアニヲタ社会復帰の予備
  • トピックモデル - 驚異のアニヲタ社会復帰の予備

    Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。 最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハーレムを築くような物へ移り変わっているような気がするが、物語自体のトピックを推定・分類して、流行り廃りをDynamic Topin Model(DTM)を用いて解析して遊んでみたらしい。 結果としては異世界でオレTSUEEEEEEEEE!!物が流行っているという結果だった。オレらの感触と全く同じようにデータが物語っているので、このビッグウェーブに乗り遅れないようにオレも明日からラノベ書くわ!! Rではlda, topicmodelsパッケージが使えるようで、お互いに互換性のあるクラスのようである。こちらでldaを使っていた

    トピックモデル - 驚異のアニヲタ社会復帰の予備
  • MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話 - 驚異のアニヲタ社会復帰の予備

    MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Developer Centerから入手できる。 やることは上記リンクを参照するが、引っかかったところが デフォルト辞書の選択 sudo vi /usr/local/etc/mecabrc viコマンド r か R で編集モードに入って、編集終わったら ESC して :wq で保存して終了。 辞書の更新 createDict.py というスクリプトを使っているが、これが csv ファイルを作るときに、単語の中にカンマが入っているものがあるようで、これのせいで出来上がった csv ファイルの列数が乱れているので、 context_id.cp

    MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話 - 驚異のアニヲタ社会復帰の予備
  • 1