サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
qiita.com
と再帰的に計算できます. 価値関数 V(s) ある状態 $s$ からスタートしたときのリターン $C$ の期待値を価値関数 $V(s)$と呼びます.例えば,時刻$t=0$での状態 $S_0$ を $s$ としたとき,$V(s) = \mathbb{E}[C_0|S_0=s]$と表現されます. 効用関数 q(s,a) 価値関数 $V$ は状態 $s$ の関数($V(s)$)でしたが,更に行動も含む関数として,効用関数$q(s,a)$が存在します.同じ状態$s$に対して,$q$が大きくなるような$a$がより良い行動であるということになります. 行動価値関数 Q(s,a) リターンを用いた効用関数として,行動価値関数(Q関数)があります.時刻$t=0$からのリターンを用いると,$Q(s,a) = \mathbb{E}[C_0|S_0=s,A_0 = a]$として表されます. 方策モデル 方策をど
このページを最初にブックマークしてみませんか?
『qiita.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く