今年のKDD cupが絵に描いたような不均衡データ(正例と負例との数的比率が極端に偏っているデータ)で苦労させられたので、ちょっと調べたら色々と良い方法があるなぁと気が付きましたよということで備忘録的に紹介しておきます。 ちなみにググったら普通に@sfchaosさんのslideshareが出てきたので、僕なんぞの解説よりそちらをどうぞw 不均衡データのクラス分類 なおこちらのスライドの方がSVM以外にもランダムフォレストなどでの対処法も載っているので、汎用的だと思います。。。 クラス重み付けを調整してサンプルサイズが小さい方のクラスの影響力を上げてやる これはRのsvm{e1071}の説明だと割とあっさりとしか書かれてないので、どちらかというとPythonのsklearn.svm.SVCの説明を見た方が分かりやすいかもしれません。 SVM: Separating hyperplane fo