[B! bandit][ucb1] yukimori_726のブックマーク

yukimori_726 id:yukimori_726

banditとucb1に関するyukimori_726のブックマーク (1)

多腕バンディットとUCB1で遊ぶ - Negative/Positive Thinking
はじめにちょっと遊びで多腕バンディット問題で遊んでみた。 UCB1-tunedも書いてみたけどUCB1より最終的な儲けが低くてあれ？ってなった。どっか間違ってるか。。。追記(2012/2/12)：コメントをいただいて、修正しました。一応、報酬額がUCB1よりtunedの方が高くなっているので、一緒にのせてみます。修正コメント指摘をうけ、元論文( http://www.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/Auer+al-UCB.pdf )を確認してみました。「K個の独立で、未知だがそれぞれ期待値がμiの一様分布に従う確率変数Xi」と定義されているみたいで、報酬期待値μ*もμiの最大と定義されているので、評価値の計算もこれを用いなければなりませんでした。「報酬を表すi.i.d.な確率変数X_{i,t}の範囲は、UCB1の証明
yukimori_726 2015/09/03
jubatus

bandit

ucb1
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx