ブックマーク / sfchaos.hatenablog.com (3)

  • 不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog

    これは,R Advent Calendar 2011の担当分の記事です. 機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回は,クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます. 不均衡データとは クラス分類を実行する際の悩みどころの一つとして,クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます.このようなデータは不均衡データと呼ばれます. 例えば,スパムメールかどうかの判別において,スパムであるサンプル数とスパムではないサンプル数.あるいは,ある重病に罹患する人を特定したい場合,その病気に罹患した人数と罹患していない人数.こうしたケースではクラス間でサンプ

    不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog
    yag_ays
    yag_ays 2015/11/05
  • 高次元データの外れ値検出 - sfchaos's blog

    高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,平均値±2σをみてみよう. library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

    高次元データの外れ値検出 - sfchaos's blog
    yag_ays
    yag_ays 2014/05/19
  • C++で統計解析 - sfchaos's blog

    先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました. 統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗検定等) 多変量解析(線形回帰,一般化線形モデル,判別分析,主成分分析,因子分析等) 機械学習(サポートベクタマシン,ランダムフォレスト等) に分けてライブラリがサポートする機能を整理してみると,下表のようになります*1.ここでは,Scytheなどの数値計算用のライブラリ,Shogun, Vowpal Wabbitなどの機械学習に特化したライブラリは対象外としています.他にもこんなライブラリがあるよ!という方は是非教えてください. ライブラリ 記述統計量 統計的検定 多変量解析 機械学習 Boost.Accumulators ○

    C++で統計解析 - sfchaos's blog
    yag_ays
    yag_ays 2014/01/14
  • 1