統計, 研究久しぶりに統計の事書きます。っていってもただの覚書ですが。。。まぁいいですよね。 疫学、特にゲノムワイドな解析を行うとき(例えば疾患の発症に寄与する要因としてSNPsなど)はp>>n問題というものがよく見られます。これはサンプル数(n)に比べて推定すべきパラメーター(p)が多すぎるという問題点です。この条件下では、回帰分析の数学的な妥当性が成立しなくなりますのでちょっと困っちゃいます。(正確には、漸近一致性などが成立しなくなる可能性など)これってちょっと考えれば分かることで、ゲノムとその組み合わせは何百億とありますが地球の人口は60億そこらということは、全人類をサンプリングしてもp>>n問題がおこるということです。(あれ、この例なんかおかしい気がする。。。?) とにかく、今回はこのような状態を考えるときの考え方に関するメモです。このp>>n問題を解く非常に根本的なアプローチは、