凄いわかりやすい。原著論文もあたろう。特にオフライン評価の下りは参考になる

chezouchezou のブックマーク 2014/01/25 19:33

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Contexual bandit @TokyoWebMining

    強化学習と方策勾配法をざっくり 注: 全体を通して割引報酬による定式化のみを考慮. p. 4:状態価値関数の図は割引をちゃんと考慮してないイメージ図 ミスたち: p. 33:行動が確率変数ではないため -> 大嘘,...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう