タグ

不均衡データに関するkidotakaのブックマーク (2)

  • データが足りないなら増やせば良いじゃない。 - Qiita

    パンがなければケーキをべれば良いじゃない。 データ不足や不均衡なときにデータを増殖する手法をざっと調べたのでまとめます。 TLDR テーブルデータ(構造化データ)はSMOTEが便利 画像データは画像処理(左右反転、傾ける、ノイズ追加等々) テキストデータは異音同義語や類語、ルールベースで単語置換 音声データは数値配列にしてノイズを乗せたり伸ばしたり 前置き 機械学習やディープラーニングで学習するとき、充分なデータが用意されているとは限りません。 またはデータの総量は充分にあるけど、偏っている(インバランスになっている)ということも稀ではありません。 そういう場合の対策は概ね2つあると思います。 1. データを集めてくる 2. データを増やす 1.のデータを集める場合は、Webを探索してからオープンデータを集めたり社内調整したり、いろいろがんばります。 Web探索はスクレイピングをがんばる

    データが足りないなら増やせば良いじゃない。 - Qiita
  • 不均衡データへの決定打となるか!?「Affinity loss」の論文を読む、実装する - Qiita

    陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ(inbalanced data)といいます。 不均衡データの問題点 評価上の問題 これは教科書的な問題で、「精度(Accuracy)が機能しない」という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定($y=0$)する分類器を作れば、その時点で精度99%を達成してしまいます。 こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても「return 0」みたいな状態に最適化が向かうことがあります(後述)。 今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F

    不均衡データへの決定打となるか!?「Affinity loss」の論文を読む、実装する - Qiita
  • 1