不均衡データ (imbalanced data) からクラス分類を行うとき、マイナーなクラスに属するサンプルの oversampling や、メジャーなクラスに属するサンプルの undersampling (downsampling とも) が大切(cf.『不均衡データのクラス分類』): (▲ Tom Fawcett氏による記事 "Learning from imbalanced data" 中の5番目の図を引用) このテクニックを使って学習した分類器による予測確率は、少し調整してから解釈したほうがいいらしい、という話。 Imbalanced data と Oversampling/Undersampling たとえば2クラス分類をしたいとき、ラベル1のサンプル(正例)がわずか 0.01% しか存在せず、その他 99.99% のサンプルはラベル0(負例)、みたいな状況がある。 そこまで顕著
![Over-/Under-samplingをして学習した2クラス分類器の予測確率を調整する式](https://cdn-ak-scissors.b.st-hatena.com/image/square/dc1295d7cdfb516c3e2fb2e28e109b13d33f53f8/height=288;version=1;width=512/https%3A%2F%2Ftakuti.me%2Fimages%2Fmisc%2Foversampling_and_undersampling.jpg)