分類問題のなかには、ラベル0が90%、ラベル1が10%といったデータが不均衡のケースが存在します。特段の工夫をせずに分類モデルを生成すると少数派の分類精度の低いモデルになることが知られています。分類モデルの目的が多数派の識別であれば深刻な問題にならないのですが、こうした不均衡データを取り扱う場合は、少数派データの識別が目的のケースが多いので、工夫が必要とされます。 本論は、過去の研究によって提案されている方法のうち、1)アンダーサンプリング、2)オーバーサンプリング、3)コスト関数のカスタマイズについての実装結果とその効果について報告します。 アンダーサンプリング アンダーサンプリングとは、少数派のデータ件数に合うように多数派データからランダムに抽出する方法です。この方法の良いところは直感的でわかりやすいことでしょう。 多数派のデータからのリサンプリングは、DataFrameであればsam
