昨日はTD学習の考え方について説明した。 今日は方策オン型制御であるSarsa法と、方策オフ型制御であるQ学習について説明していく。 Sarsa法 Sarsa法は方策オン型制御のアルゴリズムの1つで、方策としてソフト方策を使うことで知識利用と探査のバランスをとっていく。 そして、ある状態での行動の価値を、その行動を行って観測された報酬と次状態、および、その状態で方策に従って選ばれた次行動の価値を使って、 と更新する。 この更新を行うときに必要な情報を繋げて、Sarsa法、と。 具体的なアルゴリズムは、以下のとおり: を任意に初期化。 以下を繰り返す: を初期化。 から導かれるソフト方策を用いて行動を選択する。 各ステップについて、以下を繰り返す: 行動を行い、報酬と次状態を観測する。 から導かれるソフト方策を用いて行動を選択する。 を以下のように更新する。 ただし、が終端状態の場合、は0と