はじめに データセットの作成 LightGBM downsampling downsampling+bagging おわりに はじめに 新年初の技術系の記事です。 年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。 クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。本記事では、模擬的に作成したデータセットにLightGBMを使い、「down
![LightGBMでdownsampling+bagging - u++の備忘録](https://cdn-ak-scissors.b.st-hatena.com/image/square/c663eeae81834960cefde579fc0a4cd66f448e9b/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fu%2Fupura%2F20190112%2F20190112140214.png)