以下は登場する数式を(なるべく)直感的に(厳密性をけっこう犠牲にして)解釈したもの。数式多め。簡単のため台は2個とします(K=2)。 補足1 収入をxとして、期待値がベストな台の収入の確率分布を、ベストでない適当な台iの収入の確率分布をとします。 このとき分布をもつベストな台があたかもベストでない台であるかのような振舞いを示す確率というのは漸近的に で与えられるという理論があります(大偏差原理。Dは相互情報量で、分布から見た分布の「遠さ」を表す)。 さて現状で平均収入がベストだったのが台0だったとして、そのプレイ回数を、(理論的な)期待値をとします。また、もう一方の台1のプレイ回数を、期待値をとします(基本的には平均収入が多い台をプレイしていくため)。ここで「台1が実はベスト」ということの「確率」はどれくらいか?ということを考えてみます。 台1に比べて台0は十分試行回数が大きいため、台0は
![多腕バンディット問題とUCB解説](https://cdn-ak-scissors.b.st-hatena.com/image/square/06a15c64ba0ceec233d86d71001ebb29a9dcbf5d/height=288;version=1;width=512/https%3A%2F%2Fcdn.blog.st-hatena.com%2Fimages%2Ftheme%2Fog-image-1500.png)