タグ

方策反復法に関するy034112のブックマーク (2)

  • 強化学習について学んでみた。(その12) - いものやま。

    昨日は方策改善について説明した。 今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。 方策反復 方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。 そしたら、今度は改善された方策で再び方策評価を行い、さらに方策改善を行う・・・ というのを繰り返せば、繰り返すごとに方策は改善されていって、最後には最適方策へたどり着くことが予想される。 このような手法は、方策反復(policy iteration)と呼ばれている。 具体的には、以下のようなアルゴリズムになる。 初期化 すべてのについて、とを任意に初期化する。 方策評価 以下を繰り返す: 各について: (は十分小さい正の定数)なら、繰り返しを終了。 方策改善 各について: なら、 がtrueなら、2. 方策評価へ戻る。 そうでなければ、終了。 レンタカー問題 具体的なプログラムがどうなるのかを例示するために

    強化学習について学んでみた。(その12) - いものやま。
  • 今さら聞けない強化学習(5):状態価値関数近似と方策評価 - Qiita

    前回までの課題 状態価値関数$V^\pi(s)$、行動価値関数$Q^\pi(s,a)$を定義に従って求めた (第1回, 第3回) 無限回の再帰処理(枝分かれ探索)が必要だが、実用的には計算を打ち切る必要があった 値が収束せず、計算時間もかかった (第2回) 価値関数を比較することで方策を改善することができ、ある状態で最適な行動を決められた (第4回) その際、価値関数の計算時間の遅さがネックになる 今回わかること、できること 価値関数を近似して反復的に解く 価値関数の初期値を適当に設定し、繰り返し更新していく 今回行ったこと 定義通りの(再帰的な)価値関数の計算と(反復的な)近似価値関数の比較 価値関数近似の解説 問題設定 第1回で説明した格子世界 Aにいる状態でどんな行動をとっても+10点、Bも同様に5点。壁にぶつかると-1点 結果 まずは定義通り、再帰的に価値関数を求めたときの、5x5

    今さら聞けない強化学習(5):状態価値関数近似と方策評価 - Qiita
  • 1