はじめに 新規データを受領した際に、統計モデリングや機械学習の前に実施すべき10ステップをまとめてみました すぐにモデリングや機械学習による予測・分類をしたくなりますが、間違えた分析結果や作業の手戻りを避ける為に基本的な下記ステップをまず実施することが重要と思います データ型の確認 データ形の変換(日付型) データ形の変換(カテゴリ型の作成) 基本統計量の算出 単変量データの可視化 異常値の置換・除去 欠損値の補完・除去 相関(数値×数値)の可視化:ペアプロット&相関行列 相関(数値×カテゴリ)の可視化:ボックスプロット 相関(カテゴリ×カテゴリ)の可視化:ヒートマップ 対象データ概要 今回はサンプルとして下記のようなデータを対象にします 有名なTitanicのデータを加工しました(オリジナルデータは現実には存在しないくらい綺麗だったので) こちらのデータを参考に10ステップを紹介していこ
![【データ分析】新規データを受領したら最初にすべき10ステップ - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/e3b6483ceb2338cca06a988e64a98c9d69c78e15/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgwJTkwJUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUU1JTg4JTg2JUU2JTlFJTkwJUUzJTgwJTkxJUU2JTk2JUIwJUU4JUE2JThGJUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUUzJTgyJTkyJUU1JThGJTk3JUU5JUEwJTk4JUUzJTgxJTk3JUUzJTgxJTlGJUUzJTgyJTg5JUU2JTlDJTgwJUU1JTg4JTlEJUUzJTgxJUFCJUUzJTgxJTk5JUUzJTgxJUI5JUUzJTgxJThEMTAlRTMlODIlQjklRTMlODMlODYlRTMlODMlODMlRTMlODMlOTcmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTYyNzUwMmJhNWZjNDFhNmIzMWFlMjFjYWM1ZGIzOGM0%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwdGFrdWJiJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0zNmQ3NmNmOTMyOWU1NWMyMDM3YjVhZjI5MTNlN2FhYQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D3fde537e86d31b7c42abeb249a7100c1)