昨日は方策改善について説明した。 今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。 方策反復 方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。 そしたら、今度は改善された方策で再び方策評価を行い、さらに方策改善を行う・・・ というのを繰り返せば、繰り返すごとに方策は改善されていって、最後には最適方策へたどり着くことが予想される。 このような手法は、方策反復(policy iteration)と呼ばれている。 具体的には、以下のようなアルゴリズムになる。 初期化 すべてのについて、とを任意に初期化する。 方策評価 以下を繰り返す: 各について: (は十分小さい正の定数)なら、繰り返しを終了。 方策改善 各について: なら、 がtrueなら、2. 方策評価へ戻る。 そうでなければ、終了。 レンタカー問題 具体的なプログラムがどうなるのかを例示するために