強化学習を勉強したのでまとめてみます。勉強時間はかなり短時間ですが、割と分かった気になったので、ポイントを記載してみたいと思います(数式は一切用いません)。このポイントを押さえてソースコードを読むと、理解が早いです。一部用語は私が勝手に定義したものもありますが、その他間違えていたら遠慮なくご指摘お願いします。 強化学習を理解するにあたって、環境・エージェント・トレーナーの3人が登場します。その登場人物をベースに説明します。環境、エージェントは一般的に使われる用語ですが、トレーナーは筆者が勝手に名付けています。 環境 エージェントが学習を行う舞台です。オセロだったりシューティングゲームだったりブロック崩しだったり。環境は定量的な状態と行動パターン、ルール(状態と行動を入力として次の状態と報酬を決定)を持ちます。ブロック崩しの場合を例に説明してみます。 定量的な状態: 現在のブロックの数やボー
![強化学習(DQN) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/36734681579d06f2bc5781cf2ca887a533928255/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJTI4RFFOJTI5JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1lZWIyNTIzMDFkMDhhNmU5ZWFmMGViNjBkZDFkMDEwOQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwa2FtaXRvMzAwJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1kMDQxODQ4MjFhYTFlOGM3OWVjYjAyZGZiNGIyYmVlZg%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D734ca3585126f2bd158e4b4e9a360388)