この1-2年でアドテクスタジオでもMulti-Arm-BanditやContextual-Banditといった単語がプロダクトとのMTGの中で飛び交うようになり、社内における応用例も徐々に増えてきました。 Banditそれ自体も非常に面白いのですが、個人的には「それをどの様に評価・比較するのか?」という問題が非常に面白いと考えています。 その大きな理由の一つは評価に因果推論の発想を用いる必要性が生じている事にあります。 今回は、Contextual-Banditの様なPolicyの評価方法について簡単なイントロを行えればと思います。 1. セットアップ 広告の画像をContextual-Banditで選択している様な状況を考えます。 すでに何らかの広告を見せる事が決まっているリクエスト(i)が来るたびに、そのリクエストを発生させたユーザーのcontext(X)が手に入り、それを元に報酬(r
![バンディットアルゴリズムの評価と因果推論 | | AI tech studio](https://cdn-ak-scissors.b.st-hatena.com/image/square/2daf3ee33d28ed83e2471c52a74d68a3acca6189/height=288;version=1;width=512/https%3A%2F%2Fcyberagent.ai%2Fwp-content%2Fuploads%2F%2F2018%2F07%2FIMG_0243-768x1024.jpg)