エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
報酬がベルヌーイ分布に従うときのThompson Sampling - くじらにっき++
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
報酬がベルヌーイ分布に従うときのThompson Sampling - くじらにっき++
報酬がベルヌーイ分布に従うときのThompson Samplingの追試をだいぶ前にやったのですが,あまり受けが良... 報酬がベルヌーイ分布に従うときのThompson Samplingの追試をだいぶ前にやったのですが,あまり受けが良くなかったのでブログで供養をしていきます。 問題設定 Thompson Samplingは多腕バンディット問題に対する方策の1つです。多腕バンディット問題については良い解説記事やスライドがたくさんあるので,興味がある人はググってみてください。以下のようなデモもあります*1。 https://arosh.github.io/multi-armed-bandit/ 行ったのはChapelleらのNIPS 2011の論文 [1] の中の実験の1つの追試で,報酬が のベルヌーイ分布に従うアームが1本, のベルヌーイ分布に従うアームが99本あるという設定です。 原理 Thompson Sampling では個々のアーム を引いたときに当たりが出た回数 ,外れが出た回数 を記録しておきます