[B! 方策反復法] y034112のブックマーク

y034112 id:y034112

方策反復法に関するy034112のブックマーク (2)

強化学習について学んでみた。（その12） - いものやま。
昨日は方策改善について説明した。今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。方策反復方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。そしたら、今度は改善された方策で再び方策評価を行い、さらに方策改善を行う・・・というのを繰り返せば、繰り返すごとに方策は改善されていって、最後には最適方策へたどり着くことが予想される。このような手法は、方策反復（policy iteration）と呼ばれている。具体的には、以下のようなアルゴリズムになる。初期化すべてのについて、とを任意に初期化する。方策評価以下を繰り返す：各について：（は十分小さい正の定数）なら、繰り返しを終了。方策改善各について：なら、がtrueなら、2. 方策評価へ戻る。そうでなければ、終了。レンタカー問題具体的なプログラムがどうなるのかを例示するために
y034112 2018/12/14
機械学習

強化学習

方策反復法
リンク
今さら聞けない強化学習（5）：状態価値関数近似と方策評価 - Qiita
前回までの課題状態価値関数$V^\pi(s)$、行動価値関数$Q^\pi(s,a)$を定義に従って求めた　(第1回, 第3回) 無限回の再帰処理（枝分かれ探索）が必要だが、実用的には計算を打ち切る必要があった値が収束せず、計算時間もかかった (第2回) 価値関数を比較することで方策を改善することができ、ある状態で最適な行動を決められた　(第4回) その際、価値関数の計算時間の遅さがネックになる今回わかること、できること価値関数を近似して反復的に解く価値関数の初期値を適当に設定し、繰り返し更新していく今回行ったこと定義通りの（再帰的な）価値関数の計算と（反復的な）近似価値関数の比較価値関数近似の解説問題設定第1回で説明した格子世界 Aにいる状態でどんな行動をとっても+10点、Bも同様に5点。壁にぶつかると-1点結果まずは定義通り、再帰的に価値関数を求めたときの、5x5
y034112 2018/12/14
機械学習

強化学習

価値反復法

方策反復法
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx