強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の