※: 両側 p<0.10 (本A/Bテストにおける有意水準) この場合まず疑うべきはA/Bテストシステムのどこかにバグがあることです。なんらかの理由で購入頻度の高いユーザがZ群にばかり割り当てられたり、統計処理にミスがありp値が実際よりも低く出てしまったりということがあれば、まったく差がない群の間で見かけ上CVRに有意差が出てもおかしくありません。 しかしながらいくら調査してもシステム上の問題は見当たりませんでした。 『多重性の問題』の可能性があるも、それだけとも言い切れない 本A/Bテストにシステム的問題が見当たらない一方、統計手法的には1点問題がありました。それは検定多重性の問題です。検定多重性とは、3群以上の比較を行う際、本当は有意差が無いはずなのに有意差ありとなってしまう確率が2群の時よりも上がってしまう現象です。 このA/Bテストシステムは2群間での比較を前提にt検定で実装されて
![A/Bテストで想定外の結果が出たら?検定多重性の影響を定量的に分析する](https://cdn-ak-scissors.b.st-hatena.com/image/square/800aa229656cb070cd8a41db5fbb16010f3c0837/height=288;version=1;width=512/https%3A%2F%2Fs.yimg.jp%2Fimages%2Ftecblog%2F2023-H1%2F297%2Fogp.png)