[B! 不均衡データ] kidotakaのブックマーク

kidotaka id:kidotaka

不均衡データに関するkidotakaのブックマーク (2)

データが足りないなら増やせば良いじゃない。 - Qiita
パンがなければケーキを食べれば良いじゃない。データ不足や不均衡なときにデータを増殖する手法をざっと調べたのでまとめます。 TLDR テーブルデータ（構造化データ）はSMOTEが便利画像データは画像処理（左右反転、傾ける、ノイズ追加等々）テキストデータは異音同義語や類語、ルールベースで単語置換音声データは数値配列にしてノイズを乗せたり伸ばしたり前置き機械学習やディープラーニングで学習するとき、充分なデータが用意されているとは限りません。またはデータの総量は充分にあるけど、偏っている（インバランスになっている）ということも稀ではありません。そういう場合の対策は概ね2つあると思います。 1. データを集めてくる 2. データを増やす 1.のデータを集める場合は、Webを探索してからオープンデータを集めたり社内調整したり、いろいろがんばります。 Web探索はスクレイピングをがんばる
kidotaka 2019/02/07
AI

機械学習

不均衡データ

SMOTE

Augmetation
リンク
不均衡データへの決定打となるか！？「Affinity loss」の論文を読む、実装する - Qiita
陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ（inbalanced data）といいます。不均衡データの問題点評価上の問題これは教科書的な問題で、「精度（Accuracy）が機能しない」という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定（$y=0$）する分類器を作れば、その時点で精度99%を達成してしまいます。こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても「return 0」みたいな状態に最適化が向かうことがあります（後述）。今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F
kidotaka 2019/02/06
AI

機械学習

不均衡データ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx