タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

banditとucb1に関するyukimori_726のブックマーク (1)

  • 多腕バンディットとUCB1で遊ぶ - Negative/Positive Thinking

    はじめに ちょっと遊びで多腕バンディット問題で遊んでみた。 UCB1-tunedも書いてみたけどUCB1より最終的な儲けが低くてあれ?ってなった。どっか間違ってるか。。。 追記(2012/2/12):コメントをいただいて、修正しました。一応、報酬額がUCB1よりtunedの方が高くなっているので、一緒にのせてみます。 修正 コメント指摘をうけ、元論文( http://www.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/Auer+al-UCB.pdf )を確認してみました。 「K個の独立で、未知だがそれぞれ期待値がμiの一様分布に従う確率変数Xi」と定義されているみたいで、報酬期待値μ*もμiの最大と定義されているので、評価値の計算もこれを用いなければなりませんでした。 「報酬を表すi.i.d.な確率変数X_{i,t}の範囲は、UCB1の証明

    多腕バンディットとUCB1で遊ぶ - Negative/Positive Thinking
  • 1