はじめに 強化学習に対する参考書を読み進めて、深層強化学習のコードをgithubで落として一部改変して使ったりしています。しかし、肝心の理論に関するところが追いついていけません。 思うに、参考書を進めるうちになんとなくわかった気になったり、飛ばしたりするうちに不理解が蓄積していっているんだと思います。そのため、強化学習の基礎の基礎から、もう少し整理する必要があると思いました。シリーズものにして少しずつまとめていけたらと思います。 間違いや不明瞭なところなどありましたらどんどんご指摘いただけるとありがたいです。 参考書籍 Richard S. Sutton and Andrew G. Batro 著「強化学習」第1版 三上貞芳・皆川雅章訳、森北出版株式会社 現状 価値関数、方策、価値最適化、方策評価、Q関数など、なんとなくわかっているが、やはりなんとなくしかわかっていない。。 今回やったこと