タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

statisticsとdataに関するriver2470のブックマーク (1)

  • 高次元データの外れ値検出 - sfchaos's blog

    高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,平均値±2σをみてみよう. library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

    高次元データの外れ値検出 - sfchaos's blog
  • 1