はじめに 前回の基本編では、多腕バンディットアルゴリズムにおいて用いられる基本的なアルゴリズムを紹介し、簡単な実験をしてみました。今回は、それに引き続いてアームから得られる報酬の期待値パラメータをベイズ統計的な枠組みでモデル化するThompson Samplingについて紹介します。また、前回紹介したアルゴリズム群とThompson Samplingの性能を広告配信を模した2つの実験によって比較してみます。 今回の実験で使用したコード・ファイルはこちらからご覧にいただけます。 また、バンディットアルゴリズムについてまだよく知らない方は、前回の記事や他のQiitaの記事を先に見ておくと良いと思います。 目次 Thompson Samplingとは ベルヌーイ分布に従う報酬の期待値の事後分布 実験1 実験2 さいごに 参考 Thompson Samplingとは 前回紹介したUCB1アルゴリズ