エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
サブサンプリングデータで機械学習して確率予測する - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
サブサンプリングデータで機械学習して確率予測する - Qiita
はじめに データが非常に多いときに、サブサンプリングしてデータを少なくしてから機械学習して、確率を... はじめに データが非常に多いときに、サブサンプリングしてデータを少なくしてから機械学習して、確率を予測したいときがあります。 たとえば「広告に対するユーザのアクション(クリックやコンバージョン)」データのように、正例(アクションあり)は普通に扱える量なのに対して、負例(アクションなし)データは膨大だったりします。 こういうとき、負例を100分の1とかにして学習できたら楽ですよね。 この場合、大きく二つの方法があり得るかと思います。 (サブサンプリングした)負例の重みを100倍にして重み付き学習する。 重みなしで学習して、求まった確率を「元のデータでの確率」に戻す。 バッチ学習なら単に重み付き学習すれば良いのですが、オンライン学習では「負例が来たぞ! 100回更新!」などと更新するのは悪影響がありそうで、2の方法を学んでおくのも役に立つかと思います。 本稿では、2の場合に「元のデータでの確率