タグ

outlierに関するmanabouのブックマーク (5)

  • 「第6期サイボウズ・ラボユース成果発表会」開催 - Cybozu Inside Out | サイボウズエンジニアのブログ

    サイボウズ・ラボの光成です。3月30日に第6期サイボウズ・ラボユース成果発表会を開催したのでその報告をします。 サイボウズ・ラボユース サイボウズ・ラボユースとは日の若手エンジニアを発掘し、育成する場として2011年に設立されました。 ラボユース生が作りたいものをサイボウズ・ラボの社員がメンターとしてサポートします。 開発物の著作権は開発者人に帰属します。基的にオープンソースとして公開するのが条件です。 去年からは最大1年の通年募集となっています。 今年は3月で修了される3人の方と、現在開発継続中の4人、ラボユースOBから一人の発表がありました。 修了生の発表 緑川志穂さん 緑川さんは楕円曲線計算ライブラリecpyのC++による高速化というテーマで発表しました。 メンターは私です。 去年の中間発表ではペアリング暗号ライブラリのPython実装を紹介しましたが、今年はC++で開発したラ

    「第6期サイボウズ・ラボユース成果発表会」開催 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 「異常検知と変化検知」輪読会で論文紹介しました - ほくそ笑む

    去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。 タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。 非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出 from hoxo_m 発表で紹介した論文は下記です。 Hido+ (2011) Statistical Outlier Detection Using Direct Density Ratio Estimation 『異常検知と変化検知』「第11章 密度比推定による異常検知」では、密度比推定法として カルバック・ライブラー密度比推定法 KLIEP (Sugiyama+ 2008) 最小2乗密度比推定法 LSIF (Kanamori+ 2009) が紹介されていますが、LSIF を進化させた uLSIF という手

    「異常検知と変化検知」輪読会で論文紹介しました - ほくそ笑む
  • Twitter上の話題を発見するアルゴリズム - Qiita

    以下では自分の修士研究で開発した話題解析システム( https://twitter.com/lamrongol/lists/trend-analysis )について解説していきます。 そもそも話題とはなにか さて、話題を解析する前にまず「話題」とは何か、を定義しなければいけません。例えば地震が起きた時みんなが一斉に地震だとつぶやきます。さらに大きさや震源なども言及されるでしょう。つまりあるものが話題になってるとは、それに関連する 単語の出現数がいつもより大きくなっている ということを意味します。 異常検知アルゴリズム 「そんなの当たり前じゃないか」と思うかもしれませんが、ではどうやったら「単語の出現数がいつもより大きくなっている」と判断できるかを考え始めると実はこれが意外に厄介な問題であることに気が付きます。例えば簡単に思いつくものとして(単語の出現数)-(普段の単語の出現数)とすればどう

    Twitter上の話題を発見するアルゴリズム - Qiita
  • Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments

    データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には 欠損など 前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。 が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行この商品を含むブログ (2件) を見る とはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。 また、方法自体の説明は記載しないので、詳細

    Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
  • 高次元データの外れ値検出 - sfchaos's blog

    高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,平均値±2σをみてみよう. library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

    高次元データの外れ値検出 - sfchaos's blog
  • 1