陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ(inbalanced data)といいます。 不均衡データの問題点 評価上の問題 これは教科書的な問題で、「精度(Accuracy)が機能しない」という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定($y=0$)する分類器を作れば、その時点で精度99%を達成してしまいます。 こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても「return 0」みたいな状態に最適化が向かうことがあります(後述)。 今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F
![不均衡データへの決定打となるか!?「Affinity loss」の論文を読む、実装する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/552c4d833af4449f0374fec4ba88fd0f07b9cd8c/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUU0JUI4JThEJUU1JTlEJTg3JUU4JUExJUExJUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUUzJTgxJUI4JUUzJTgxJUFFJUU2JUIxJUJBJUU1JUFFJTlBJUU2JTg5JTkzJUUzJTgxJUE4JUUzJTgxJUFBJUUzJTgyJThCJUUzJTgxJThCJUVGJUJDJTgxJUVGJUJDJTlGJUUzJTgwJThDQWZmaW5pdHklMjBsb3NzJUUzJTgwJThEJUUzJTgxJUFFJUU4JUFCJTk2JUU2JTk2JTg3JUUzJTgyJTkyJUU4JUFBJUFEJUUzJTgyJTgwJUUzJTgwJTgxJUU1JUFFJTlGJUU4JUEzJTg1JUUzJTgxJTk5JUUzJTgyJThCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1jZGZjNjc2MGEwN2NkZDkyMjVjZjU4NjEzY2I1YmM2OA%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwa29zaGlhbjImdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTE0NzVlN2RlNzIyNDdlNDY0ZjFkZTRkMWJjYWVkY2E5%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D0e38559f8b48cf9133212d4660dd7a2f)