エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Kaggleで勝つデータ分析技術_3章の欠損値についてまとめてみた - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Kaggleで勝つデータ分析技術_3章の欠損値についてまとめてみた - Qiita
では、なぜ欠損が発生しているのでしょうか? 理由を一度、考えてみてください。 欠損が発生している理... では、なぜ欠損が発生しているのでしょうか? 理由を一度、考えてみてください。 欠損が発生している理由には下記の分類で分けられます。 値が存在しない場合 年齢が100歳を超えているが、100歳以上を選択ができない場合 何らかの意図があるケース 痩せ過ぎているのを伝えたくないために、体重を記載しない 値を取得するのに失敗しているケース 人為的ミスや観測機器のエラーなど これらの欠損値の扱い方には様々な方法があります。 ここでは、下記の例をそれぞれ紹介します。 欠損値のまま取り扱う 欠損値を代表値で埋める 欠損値を他の変数から予測する 欠損値から新たな特徴量を作成する データ上の欠損の認識 欠損値のまま取り扱う GBDTライブラリなどは、欠損値を埋めずにそのまま取り扱うことができます。 欠損値はその値がなんらかの理由で欠損しているという情報を持っていると考えると、その情報を捨ててしまうのはもった