※この記事は、Speee Advent Calendar 4日目の記事です。 昨日の記事はこちら tech.speee.jp 初めまして。アドプラットフォーム事業部の本田 @mov_vc です。SpeeeでUZOUの開発をしています。 以前に下記の記事で紹介されていますが、UZOUで利用されているバンディットアルゴリズムはトンプソン抽出 (Thompson Sampling) で実装されています。 tech.speee.jp 大まかに言うと、トンプソン抽出によるバンディットアルゴリズムでは それぞれのアームの期待値の確率分布に従って乱数を生成する 生成された乱数が最大のアームを1回引いて期待値の確率分布を修正する という手順を繰り返します。この記事では、これらがどのようにして実現可能なのかという理論面に焦点を当てて観察していきます。 この記事で話さないこと バンディットアルゴリズム自体の説