皆さんこんにちは お元気ですか。私は元気です。 本日はBandit Problemと呼ばれる問題を強化学習で解いてみます。 Bandit Problemについて 解き方 今回解いた問題 epsilon greedy algorithm Softmax Tempature UCB 感想 参考文献 ソースコード Bandit Problemについて Bandit Problem(和名:バンディット問題)は 当たる確率の異なるスロットマシンから最も大きい報酬を得るには どうすればよいか?といった問題です。 以下のようなスロットがあったとします。 しかし、実はスロット達、あたる当たる確率が異なるスロットなのです。 そのようなスロットの中で最も報酬を高くするようスロットを選んでいくにはどうすればよいかといった問題を 解くことができます。 つまり、どうすれば大金持ちになれるかわかるということです、もち