これは,R Advent Calendar 2011の担当分の記事です. 機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回は,クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます. 不均衡データとは クラス分類を実行する際の悩みどころの一つとして,クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます.このようなデータは不均衡データと呼ばれます. 例えば,スパムメールかどうかの判別において,スパムであるサンプル数とスパムではないサンプル数.あるいは,ある重病に罹患する人を特定したい場合,その病気に罹患した人数と罹患していない人数.こうしたケースではクラス間でサンプ
![不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/03ad66da376f6c1816def265e547d8d247fa1934/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fs%2Fsfchaos%2F20111202%2F20111202062452.png)