前回の記事では不均衡データをサンプリングすることで、学習の精度を上げる方法を書きました。今回はSVMのパラメータを調整することで、不均衡データの学習の精度を上げる方法について書こうと思います。 そのためにSVMの基本を理解しておいたほうがよいと思うで、簡単にまとめてみたいと思います。 SVMの基本原理 SVMのイメージは以下のページを見てもらうとわかりやすいと思います。 SVMを使うとなにが嬉しいの? 簡単に言うとSVMの目的は、データを2つのクラスに分離する線を引こうとしたときに、2つのクラスとのユークリッド距離が最も大きくなるようにする(マージンを最大化する)ことです。これだけではわからないと思うので、数式で原理を追ってみます。 正方向の傾きを、負方向の傾きを、をクラスを2つに分離する直線したとき、正の超平面は式(1)、負の超平面は式(2)のように表せます。 式(1) - 式(2)から