昨日は pandas でのデータセット加工について説明しましたがその続きです。 データを正規化する 実は今までの記事でもさり気なく正規化は登場してきたのですがきちんと説明していなかったと思います。 統計における 正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。 たとえば国語が 90 点、数学が 70 点だったとしましょう。単純に数値だけを比較すると国語のほうが成績が良いことになってしまいますが、もし国語の平均点が 85 点、数学の平均点が 55 点だったら果たしてどうでしょうか?このように基準が異なるデータを比較できるようになるといったことが正規化のメリットです。 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。 これは以下の数式で算出できます。
![pandas によるデータセットの加工 (2) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/513d2c6e9f38dabd622564a9d6987c6be39e7972/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9cGFuZGFzJTIwJUUzJTgxJUFCJUUzJTgyJTg4JUUzJTgyJThCJUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUUzJTgyJUJCJUUzJTgzJTgzJUUzJTgzJTg4JUUzJTgxJUFFJUU1JThBJUEwJUU1JUI3JUE1JTIwJTI4MiUyOSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9MjJkM2Y2M2Y2YjNjZGVlMjdlZWEwZTNmMjY5YTBkYWU%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDB5bmFrYXlhbWEmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTU5MzAzYTNhMzMxZTg5YzBhM2ExNjIyZmY0NDliYmIy%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Df6070ebd828dc4ec89520143dd56f0ae)