昨日の続き。 今日はどうやってBellman方程式を解いていくのかを考えていく。 方策評価 昨日言及した通り、ある方策の元でBellman方程式を解くと、その方策での状態価値(あるいは行動価値)が計算できる。 なので、Bellman方程式を解くことを方策評価と呼んだりする。 Bellman方程式は連立一次方程式なので、解き方はいろいろあるのだけれど、本では反復解法が用いられている。 これは、後々で方策改善と組み合わせるときに、都合がよかったりするから。 なお、反復解法を用いる場合、問題によっては答えが収束せずに発散してしまうこともあるので、本当は収束条件を満たしているかをチェックしないといけないんだけれど、本では「収束することが一般的に示されている」の一言のみ・・・ まぁ、ここは本を信じるということで。 詳細をちゃんと確認したい場合、「ヤコビ法 収束条件」などでググると、情報が出てくる。