昨日は方策評価について説明した。 今日は、評価された状態価値を使って、方策を改善していくことを考えていく。 方策改善 さて、方策評価が出来たのなら、今度はその方策を変えることで、状態価値(や行動価値)を改善していきたいとなる。 これを、方策改善と呼ぶ。 なお、方策や状態価値を改善するためには、そもそも方策や状態価値の大小関係を定義しておかないといけない。 まず、状態価値はベクトルなので、その大小関係を次のように定義する。 そして、これを使って、方策の大小関係を次のように定義する。 特に、この大小関係で最大となる、最適方策、最適状態価値ベクトルを、次のように定義する。 なお、こうして定めた大小関係は全順序ではなく半順序なので、実際のところ、(有界であれば)極大元の存在は言えるけれど、最大元が存在するということまでは言えない。 本ではこの辺りの議論が全然されてなくてかなり怪しいのだけれど、おそ