ブックマーク / www.anlyznews.com (1)

  • 平均代入法による欠損データ処理はオワコンどころか黒歴史なので

    野村総合研究所の塩崎氏と広瀬氏の記事*1がまた*2データ分析者に困惑を引き起こしている。「データが欠損している場合は、平均値や中央値で埋め合わせる作業を行います。」とあるのだが、欠損データ処理としてはよくない手法として知られている。 平均代入法は、欠損が完全にランダムに生じている(MCAR)とき以外は推定量にバイアスが入ると説明されることが多いが、MCARでも回帰分析などの推定に用いる場合はバイアスが入る。また、単一代入法になるので、標準誤差が過小推定される*3。名前がついているぐらい一般的なのだが、使ってはいけない過去の遺物だ。 推定前の処理としては、欠損データ列がある行を分析から除くリストワイズ法や、分析に用いる欠損データ列がある行を分析から除くペアワイズ法の方がまだよい*4。サンプルサイズの減少を避けたい場合は、単一代入法でも回帰代入などを使う方が望ましい。最近は、機械学習の前処理と

    平均代入法による欠損データ処理はオワコンどころか黒歴史なので
  • 1