Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

テクノロジーカテゴリーの変更を依頼記事元:

speakerdeck.com/usaito

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価... 文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価を可能にする。しかし、行動数が多くなる場合に、傾向スコアに基づく既存推定量が精度を著しく悪化してしまう問題がある。これは、推薦・検索システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。この問題を解決すべく、昨年我々は、行動やアイテムに関する特徴量・埋め込みを活用した新たなMIPS推定量(ICML2022)を開発した。MIPSは特に大規模問題において既存推定量を凌駕するオフライン評価精度を発揮するが、行動特徴量が高次元の場合に、バイアスまたはバリアンスのどちらかが大きくなってしまう問題を抱える。よって、MIPSの問題点を解決し大規模問題におけるオフライン評価の精度をさらに向上させるために、報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を新たに提

ブックマークしたユーザー

imyutaro2023/05/22

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx