[B! algorithm][outlier] manabouのブックマーク

manabou id:manabou

algorithmとoutlierに関するmanabouのブックマーク (2)

Twitter上の話題を発見するアルゴリズム - Qiita
以下では自分の修士研究で開発した話題解析システム( https://twitter.com/lamrongol/lists/trend-analysis )について解説していきます。そもそも話題とはなにかさて、話題を解析する前にまず「話題」とは何か、を定義しなければいけません。例えば地震が起きた時みんなが一斉に地震だとつぶやきます。さらに大きさや震源なども言及されるでしょう。つまりあるものが話題になってるとは、それに関連する単語の出現数がいつもより大きくなっているということを意味します。異常検知アルゴリズム「そんなの当たり前じゃないか」と思うかもしれませんが、ではどうやったら「単語の出現数がいつもより大きくなっている」と判断できるかを考え始めると実はこれが意外に厄介な問題であることに気が付きます。例えば簡単に思いつくものとして(単語の出現数)-(普段の単語の出現数)とすればどう
manabou 2016/02/18
twitter

outlier

algorithm
リンク
高次元データの外れ値検出 - sfchaos's blog
高次元データの外れ値検出についてのメモ．高次元データと次元の呪い次元が大きくなるほど，点の間の距離は均一になっていく．例として，2000個の点の各座標を一様乱数で発生させて，次元を変えながら点の間の距離の平均値，最大値，最小値，平均値±1σ，平均値±2σをみてみよう． library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))
manabou 2014/06/02
algorithm

outlier
リンク
1