強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の状態において、ある行動をとる確率を示す まず環境からある「状態」$s_t$が与えられ → 「エージェント」が「方策」 $\pi_t(s,a)$ に従い「行動」$a_t$を選択し → 次のステップに「環境」から「報酬」$r_{t+1}$と「状態」$s_{t+1}$をフィードバックとしてもらう という流