この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。 分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸本ばなな (@unpuy_tw) July 22, 2019 その記事がこちらです。 そう言えば、上記の検証記事の中でもコメントしたのですが「undersampling + baggingで不均衡データを補正するとfalse positiveは物凄く多くなる」んですよね。これは僕も結構気になっていて、もう少し巧みに正例の領域にだけ限局して決定境界を引けないものか?と思っていました。この方法を使えばそれが実現できるのかどうか、実際に試してみようと思います。 なお、前回の記事同様面倒なのでRでランダムフォレストのみ
![Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/9e45207f023a654186141a9b1c81b6a02d5888b3/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FT%2FTJO%2F20190804%2F20190804171644.png)