qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

強化学習手法の分類と簡易的内容 - Qiita
12 users
qiita.com

と再帰的に計算できます．価値関数 V(s) ある状態 $s$ からスタートしたときのリターン $C$ の期待値を価値関数 $V(s)$と呼びます．例えば，時刻$t=0$での状態 $S_0$ を $s$ としたとき，$V(s) = \mathbb{E}[C_0|S_0=s]$と表現されます．効用関数 q(s,a) 価値関数 $V$ は状態 $s$ の関数($V(s)$)でしたが，更に行動も含む関数として，効用関数$q(s,a)$が存在します．同じ状態$s$に対して，$q$が大きくなるような$a$がより良い行動であるということになります．行動価値関数 Q(s,a) リターンを用いた効用関数として，行動価値関数(Q関数)があります．時刻$t=0$からのリターンを用いると，$Q(s,a) = \mathbb{E}[C_0|S_0=s,A_0 = a]$として表されます．方策モデル方策をど
- テクノロジー
- 2019/11/26 19:13

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx