[B! outlier] manabouのブックマーク

「第6期サイボウズ・ラボユース成果発表会」開催 - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの光成です。3月30日に第6期サイボウズ・ラボユース成果発表会を開催したのでその報告をします。サイボウズ・ラボユースサイボウズ・ラボユースとは日本の若手エンジニアを発掘し、育成する場として2011年に設立されました。ラボユース生が作りたいものをサイボウズ・ラボの社員がメンターとしてサポートします。開発物の著作権は開発者本人に帰属します。基本的にオープンソースとして公開するのが条件です。去年からは最大1年の通年募集となっています。今年は3月で修了される3人の方と、現在開発継続中の4人、ラボユースOBから一人の発表がありました。修了生の発表緑川志穂さん緑川さんは楕円曲線計算ライブラリecpyのC++による高速化というテーマで発表しました。メンターは私です。去年の中間発表ではペアリング暗号ライブラリのPython実装を紹介しましたが、今年はC++で開発したラ

manabou 2017/04/07

リンク

「異常検知と変化検知」輪読会で論文紹介しました - ほくそ笑む

去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出 from hoxo_m 本発表で紹介した論文は下記です。 Hido+ (2011) Statistical Outlier Detection Using Direct Density Ratio Estimation 『異常検知と変化検知』「第11章密度比推定による異常検知」では、密度比推定法としてカルバック・ライブラー密度比推定法 KLIEP (Sugiyama+ 2008) 最小2乗密度比推定法 LSIF (Kanamori+ 2009) が紹介されていますが、LSIF を進化させた uLSIF という手

manabou 2016/07/26

リンク

Twitter上の話題を発見するアルゴリズム - Qiita

以下では自分の修士研究で開発した話題解析システム( https://twitter.com/lamrongol/lists/trend-analysis )について解説していきます。そもそも話題とはなにかさて、話題を解析する前にまず「話題」とは何か、を定義しなければいけません。例えば地震が起きた時みんなが一斉に地震だとつぶやきます。さらに大きさや震源なども言及されるでしょう。つまりあるものが話題になってるとは、それに関連する単語の出現数がいつもより大きくなっているということを意味します。異常検知アルゴリズム「そんなの当たり前じゃないか」と思うかもしれませんが、ではどうやったら「単語の出現数がいつもより大きくなっている」と判断できるかを考え始めると実はこれが意外に厄介な問題であることに気が付きます。例えば簡単に思いつくものとして(単語の出現数)-(普段の単語の出現数)とすればどう

manabou 2016/02/18

リンク

Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments

データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には欠損など前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見るとはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。また、方法自体の説明は記載しないので、詳細

manabou 2016/02/01

リンク

高次元データの外れ値検出 - sfchaos's blog

高次元データの外れ値検出についてのメモ．高次元データと次元の呪い次元が大きくなるほど，点の間の距離は均一になっていく．例として，2000個の点の各座標を一様乱数で発生させて，次元を変えながら点の間の距離の平均値，最大値，最小値，平均値±1σ，平均値±2σをみてみよう． library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

manabou 2014/06/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

outlierに関するmanabouのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス