用語「不均衡データ」について説明。分類問題におけるラベル(目的変数)の各クラス数の比率が大きく偏っているデータを指す。不均衡データでは評価値に注意し、場合によっては不均衡を是正するための工夫を行う必要がある。 連載目次 用語解説 統計学/機械学習における不均衡データ(Imbalanced Data)とは、分類問題におけるラベル(目的変数)の各クラス数の比率が大きく偏っているデータを指す。比率が大きいクラスは多数派クラス(majority classes)、比率が小さいクラスは少数派クラス(minority classes)などと呼ばれる。 不均衡データかどうかは、ラベル(目的変数)の各クラスで棒グラフを作成すると、目視で確認しやすい。多クラス分類ではなく二値分類では、混同行列を作成することによっても容易に確認できる(図1)。 例えば何らかの機械学習を行う場合、二値分類であれば陽性(正例:p
![不均衡データ(Imbalanced Data)とは?](https://cdn-ak-scissors.b.st-hatena.com/image/square/8a1377932790850710f3773dc02d20ecbc540ddc/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2208%2F31%2Fcover_news039.png)