“# 得られた報酬を反映し、学習する。 # -- # selected: 選んだ腕 # value: 得られた報酬”

goodtime683goodtime683 のブックマーク 2017/10/19 18:01

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

強化学習について学んでみた。(その8) - いものやま。

    昨日はグリーディ法とグリーディ法を扱った。 今日はn腕バンディット問題に対する別のアルゴリズムを考えていく。 ソフトマックス法 グリーディ法では、探査を行うために、の確率でランダムに行動を選択してい...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう