ブックマーク / qiita.com/TomokIshii (1)

  • データ欠損の状況を把握する - Python vs. R - Qiita

    はじめに データ分析でデータを与えられて最初に行うこととして,概略の内容把握がある.データを表の形にして,特徴量は何か,データのタイプは何かを理解しようとする.これと同時に行う作業が,欠損値についての調査である.データ欠損の有無は,データ操作に影響を及ぼすのでまず有無を確認し,さらに欠損値の頻度をみる.記事では,この作業について,PythonとRでどのように行うかについて確認していく. (プログラミング環境は,Jupyter Notebook + Python 3.5.2 および Jupyter Notebook + IRkernel (R 3.2.3) になります.) Pythonでのデータ欠損状況確認 データセットとして,Kaggleが提供する"Titanic"を用いることとした.データを見た方も多いと思われるが,これは,乗客の特徴量から「生存した」/「生存できなかった」を分類するも

    データ欠損の状況を把握する - Python vs. R - Qiita
  • 1