機械学習の一種である強化学習について勉強したことをまとめたノート(忘備録)です。 尚、ここで取り上げている各種強化学習手法の一部の手法の実装コードは、以下のレポジトリに保管してあります。 github.com 目次 [Contents] 強化学習のモデル化 エージェントと環境の相互作用 環境のマルコフ性 エピソード的タスクと連続タスク マルコフ決定過程(MDP) 価値関数 状態価値関数 行動価値関数 状態価値関数と行動価値関数の関係 ベルマン方程式 ベルマン最適方程式とグリーディーな選択 代表的な古典的強化学習手法の比較 強化学習における動的計画法(DP法) 反復法による近似解 方策評価 反復方策評価 方策改善 方策改善定理 方策改善定理とグリーディー方策 方策改善のアルゴリズム 方策反復法 [policy iteration] 価値反復法 [value iteration] 一般化方策反