[B! 方策] hsato2011のブックマーク

hsato2011 id:hsato2011

方策に関するhsato2011のブックマーク (2)

強化学習について学んでみた。（その19） - いものやま。
昨日はTD学習の考え方について説明した。今日は方策オン型制御であるSarsa法と、方策オフ型制御であるQ学習について説明していく。 Sarsa法 Sarsa法は方策オン型制御のアルゴリズムの1つで、方策としてソフト方策を使うことで知識利用と探査のバランスをとっていく。そして、ある状態での行動の価値を、その行動を行って観測された報酬と次状態、および、その状態で方策に従って選ばれた次行動の価値を使って、と更新する。この更新を行うときに必要な情報を繋げて、Sarsa法、と。具体的なアルゴリズムは、以下のとおり：を任意に初期化。以下を繰り返す：を初期化。から導かれるソフト方策を用いて行動を選択する。各ステップについて、以下を繰り返す：行動を行い、報酬と次状態を観測する。から導かれるソフト方策を用いて行動を選択する。を以下のように更新する。ただし、が終端状態の場合、は0と
hsato2011 2017/02/20
policyon　offの違い。

強化学習

方策
リンク
http://sysplan.nams.kyushu-u.ac.jp/gen/papers/sicej2k_revised.pdf
hsato2011 2016/12/24
方策とかをどう決めるか

強化学習

ポリシー

方策
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx