
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
多腕バンディット問題 - Qiita
要約 多腕バンディット問題を Thompson Sampling で解いてみたよ。 多腕バンディット問題とは (ベルヌー... 要約 多腕バンディット問題を Thompson Sampling で解いてみたよ。 多腕バンディット問題とは (ベルヌーイバンディット (Bernoulli Bandit) の場合) 複数のスロットマシンがあって、それらをプレイすると、当たりか外れが出る。 スロットごとに当たりが出る確率は異なっているが、その値はわからない。 このとき、決められた回数のゲームプレイで、多く当たりを引きたい。 これがベルヌーイバンディットと呼ばれるのは、 確率 p で 1、 p-1 で 0 をとる離散分布はベルヌーイ分布 だからである。 解くイメージとしては、 当たりがたくさん出るスロットをたくさんプレイしたい。 でも他のスロットもプレイして当たりやすさを調べておきたい みたいなことを同時に達成したい。 Thompson Sampling とは 多腕バンディット問題をとくアルゴリズムの一つ。 スロットマシンご