showyouのブックマーク - はてなブックマーク

報酬が線形モデルで表せる時のバンディット問題
『バンディット問題の理論とアルゴリズム』本の，報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど．スライドアルゴリズムの実装と人工データによる実験 LinUCBとThompson Sampling，報酬が正規分布のケースロジスティック回帰モデル上のバンディット，報酬が二値のケース感想行動(腕)毎の報酬を推定するのでは無く，報酬モデルのパラメータを推定するという方策．妥当なモデルが作れたら実際に使えそうな感触．実装は一発書きおろしで検算をしていないが，一応それっぽく動いた．ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい． LinUCBかThompson Samplingかどちらを使うかというと，報酬が同期で観測できない広告配信は後者一択で，報酬が二値の場
showyou 2017/08/07
*あとで読む
リンク
1

はてなブックマーク