統計的仮説検定において,以下のような経験をした研究者も多いのではないだろうか? (1) 統計的仮説検定が有意にならなかったので,p値が0.05より小さくなるまでサンプル数を増やした。(p-hacking) (2) 有名な論文の内容を再検証しようとリプリケーション・スタディーを行ったのだが,結果を再現できない。 (3) ビッグデータを使って,男性と女性100万人のIQスコアから 2 群の差の検定を行った。 その結果,標本平均の差は0.1以下だったが t値が10で帰無仮説が却下された。標本サイズが大きすぎるようだ。 (4) 統計の初心者は,t値が大きければ大きいほど(あるいは p値が小さければ小さいほど) その効果自体が大きいと,標準化係数(効果量)との概念を混同しがちである。 統計的仮説検定に関する批判は70年代から議論されていたのだが( Morrison and Henkel1970),こ