強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に