![](https://cdn-ak-scissors.b.st-hatena.com/image/square/4385075ad24953adc7177d89b5afc3abddc1cdef/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F4751d80a767e478991f5f40e07b40c23%2Fslide_0.jpg%3F25481858)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)
文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価... 文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価を可能にする。しかし、行動数が多くなる場合に、傾向スコアに基づく既存推定量が精度を著しく悪化してしまう問題がある。これは、推薦・検索システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。この問題を解決すべく、昨年我々は、行動やアイテムに関する特徴量・埋め込みを活用した新たなMIPS推定量(ICML2022)を開発した。MIPSは特に大規模問題において既存推定量を凌駕するオフライン評価精度を発揮するが、行動特徴量が高次元の場合に、バイアスまたはバリアンスのどちらかが大きくなってしまう問題を抱える。よって、MIPSの問題点を解決し大規模問題におけるオフライン評価の精度をさらに向上させるために、報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を新たに提