注意 この記事は Dealing with Imbalanced Classes in Machine Learning を和訳したものです。 元記事中で class imbalance や imbalanced classification などと表現されている概念は、必要に応じて 不均衡データ などの表現に置き換えています。 はじめに 現実世界の分類問題ではしばしば、不均衡データを扱わざるを得ない状況になる場合があります。不均衡データとは、データセットに含まれるインスタンスのクラスが占める割合が均一にならないようなもののことを指します。不均衡データを用いた機械学習では、評価指標と手法の適切な調整が重要で、これが行われないと、あなたが取り組みたい真の目的に対して無意味な指標が最適化されてしまう可能性があります。 例えば、AとBの2つのクラスがあるとします。クラスAがデータセットの90%を