報酬がベルヌーイ分布に従うときのThompson Samplingの追試をだいぶ前にやったのですが,あまり受けが良くなかったのでブログで供養をしていきます。 問題設定 Thompson Samplingは多腕バンディット問題に対する方策の1つです。多腕バンディット問題については良い解説記事やスライドがたくさんあるので,興味がある人はググってみてください。以下のようなデモもあります*1。 https://arosh.github.io/multi-armed-bandit/ 行ったのはChapelleらのNIPS 2011の論文 [1] の中の実験の1つの追試で,報酬が のベルヌーイ分布に従うアームが1本, のベルヌーイ分布に従うアームが99本あるという設定です。 原理 Thompson Sampling では個々のアーム を引いたときに当たりが出た回数 ,外れが出た回数 を記録しておきます