タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

mathとあとで読むに関するlilpacyのブックマーク (1)

  • 固有値・固有ベクトルの使いみち(1.主成分分析) - Qiita

    現代はビッグデータの時代と言われて久しいですが、「データが大きい」と一口に言っても、2種類の大きさがあります。データの次元とサンプルサイズ(N数)です。例えば、「全人類の身長と体重のデータ」なら「次元が小さいけどNが大きいデータ(次元は2、N=70億)」ですし、「10人分のゲノム配列データ」なら「次元が大きいけどNが小さい(次元は60億、N=10)」と言えるでしょう。 サンプルサイズがデータの次元より小さいというのは、一般的にデータが不足している状況であり、あまり好ましくありません。たとえば変数の間にある関係を捉えることが難しくなります(回帰における劣決定問題)。 しかし、多次元・多変数のデータにおいて、すべての変数が意味を持つということも稀です。幾つかの変数は単に「意味を持たないただのノイズ」だったりします。ゲノムの例でいうと、ヒトゲノムのおよそ97%は無意味なジャンクDNAであると言わ

    固有値・固有ベクトルの使いみち(1.主成分分析) - Qiita
  • 1