パンがなければケーキを食べれば良いじゃない。 データ不足や不均衡なときにデータを増殖する手法をざっと調べたのでまとめます。 TLDR テーブルデータ(構造化データ)はSMOTEが便利 画像データは画像処理(左右反転、傾ける、ノイズ追加等々) テキストデータは異音同義語や類語、ルールベースで単語置換 音声データは数値配列にしてノイズを乗せたり伸ばしたり 前置き 機械学習やディープラーニングで学習するとき、充分なデータが用意されているとは限りません。 またはデータの総量は充分にあるけど、偏っている(インバランスになっている)ということも稀ではありません。 そういう場合の対策は概ね2つあると思います。 1. データを集めてくる 2. データを増やす 1.のデータを集める場合は、Webを探索してからオープンデータを集めたり社内調整したり、いろいろがんばります。 Web探索はスクレイピングをがんばる
![データが足りないなら増やせば良いじゃない。 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/c8905a6f1d24d7fd4d44d5004351171ec88e99c0/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgzJTg3JUUzJTgzJUJDJUUzJTgyJUJGJUUzJTgxJThDJUU4JUI2JUIzJUUzJTgyJThBJUUzJTgxJUFBJUUzJTgxJTg0JUUzJTgxJUFBJUUzJTgyJTg5JUU1JUEyJTk3JUUzJTgyJTg0JUUzJTgxJTlCJUUzJTgxJUIwJUU4JTg5JUFGJUUzJTgxJTg0JUUzJTgxJTk4JUUzJTgyJTgzJUUzJTgxJUFBJUUzJTgxJTg0JUUzJTgwJTgyJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz01N2NjNzgzM2ViYjFiYWYxNTNiZDVhMDYzYjhhNTdlNQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwY3Z1c2smdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWRmZTU3MzgzNjZmZWU4NmU2NzE0MjZmZmFjODg0MmY4%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3De7bb837c0b39f11ca587bc0be356800b)