タグ

欠損値と機械学習に関するhsato2011のブックマーク (2)

  • 欠損値を含むデータをどう解析するか? : 大学教授のブログ (データ分析相談所)

    いろいろな大学などでの研究をわかりやすく紹介したり、研究生活のこと・データ解析のことなど書いたり。データ解析手法のプログラムや教科書もnoteで公開しています! データ分析・解析関係の質問、どしどし受け付けております! データ解析をおこなうとき、データセットに欠損値があるときがあります。たとえば、 サンプルAは変数1と変数2の両方に値があり、 サンプルBは変数1に値はあるが変数2には値がなく、 サンプルCは変数2に値はあるが変数1には値がない、 といったときです。エクセルファイルにデータを表示したときに虫いがあるようなデータセットの状況です。 このような状況ではどうすればよいでしょうか? 実は、これには明確な答えはありません。 しかし、多少わかっていることもあります。 順に説明します。 まず、欠損値のあるサンプルをすべて削除してみる 縦にサンプル、横に変数が並んでいるようなデータセットの

    欠損値を含むデータをどう解析するか? : 大学教授のブログ (データ分析相談所)
  • 欠損値 - 機械学習の「朱鷺の杜Wiki」

    欠損値 (欠測値; missing value), 欠損データ (missing data)† アルゴリズムへの入力で,ある対象の全ての特徴や,一部の特徴の値がない場合. 欠損していると,特徴の値は分からないが,欠損していること自体が情報となる場合もある.例えば,年齢が欠損していれば,ある程度以上の年齢と予測できる. ↑ 欠損値の扱い† 欠損値のある特徴を,全ての対象について無視したり,欠損値のある対象のデータを除外したりする 「欠損値」という値にする 手作業で適切な値を選んで補完する 処理するアルゴリズムで,あまり影響の出ないような定数で置換する 同じ特徴の欠損していない値の平均や中央値などの統計量で置換する 別の情報や,他の観測された情報基づきを用いて,最尤推定などの統計的推定を行う 欠損した特徴を潜在変数とみなし,EMアルゴリズムなどを適用 時系列などの場合は,前後の値から補間する

    hsato2011
    hsato2011 2016/07/20
    欠損値の扱いについて
  • 1