購買系のビッグデータには「べき分布」が多く注意が必要 (第2回)と(第3回)で全量分析の優位点について紹介しました。本日からは、全量データに注意すべき点を説明します。本日は注意点①の以下のポイントです。 注意点①:サンプルデータは中心極限定理により正規分布を仮定されることが多いが、ビッグデータをそのまま扱うと「べき分布」になることが多く、分析には注意が必要。 「中心極限定理」とは、無作為抽出した標本で、かつ標本数が大きければ、母集団の分布にかかわらず「標本の平均値の分布」が正規分布に近づくというものです。これは誤解されることが多いのですが、母集団の分布にかかわらず正規分布に近づくのは、あくまで標本の「平均値の分布」で、「標本そのものの分布」は、当然のことですが「母集団の分布」に近づきます。しかし、統計分析の現場では、この中心極限定理を根拠に、サンプルデータでの統計解析をデータが正規分布であ