現代はビッグデータの時代と言われて久しいですが、「データが大きい」と一口に言っても、2種類の大きさがあります。データの次元とサンプルサイズ(N数)です。例えば、「全人類の身長と体重のデータ」なら「次元が小さいけどNが大きいデータ(次元は2、N=70億)」ですし、「10人分のゲノム配列データ」なら「次元が大きいけどNが小さい(次元は60億、N=10)」と言えるでしょう。 サンプルサイズがデータの次元より小さいというのは、一般的にデータが不足している状況であり、あまり好ましくありません。たとえば変数の間にある関係を捉えることが難しくなります(回帰における劣決定問題)。 しかし、多次元・多変数のデータにおいて、すべての変数が意味を持つということも稀です。幾つかの変数は単に「意味を持たないただのノイズ」だったりします。ゲノムの例でいうと、ヒトゲノムのおよそ97%は無意味なジャンクDNAであると言わ
![固有値・固有ベクトルの使いみち(1.主成分分析) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/b2b7ccfc850b9cf1491b149897f846de7ffe0925/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU1JTlCJUJBJUU2JTlDJTg5JUU1JTgwJUE0JUUzJTgzJUJCJUU1JTlCJUJBJUU2JTlDJTg5JUUzJTgzJTk5JUUzJTgyJUFGJUUzJTgzJTg4JUUzJTgzJUFCJUUzJTgxJUFFJUU0JUJEJUJGJUUzJTgxJTg0JUUzJTgxJUJGJUUzJTgxJUExJUVGJUJDJTg4JUVGJUJDJTkxJUVGJUJDJThFJUU0JUI4JUJCJUU2JTg4JTkwJUU1JTg4JTg2JUU1JTg4JTg2JUU2JTlFJTkwJUVGJUJDJTg5JnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz04ZmY2ODFkMmY2MDBlMWM1YzE3MmMzYWZiZGU4ZTM0Mg%26mark-x%3D142%26mark-y%3D100%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBLZW4taWNoaV9IaXJvbmFrYSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NTlmN2VhOTI3MGE4OTgxYWMxZWQxYzYwYjgxOWI1OTA%26blend-x%3D142%26blend-y%3D504%26blend-mode%3Dnormal%26s%3D58d40b9d0cce629b606355a204f5d0ba)