経路探索問題を強化学習で解き、その過程をアニメーションで可視化しました。 ↑↓で速度調節、Spaceで最速の学習、ドラッグ or タップで障害物の追加ができます。 これにより、強化学習で何をしているのか直観的に分かりやすくなりました。 問題設定 本アニメーションで可視化している問題の設定は、下記の通りです。 条件 $n\times n$のマスからなる離散的なフィールド 固定の初期位置と目標位置(⭐)、障害物が配置されている 障害物(🔴)は、踏んだら死ぬ。初期位置からやり直し 自機(👾)は単位時間に8方向のいずれかへ1マス移動できる 横移動と斜め移動のコストは同じ 得たい出力 初期位置から目標位置までの、障害物を回避した最短経路 この問題を強化学習のフレームワークに落とし込み、Qラーニングで求解しています。 詳細は後述します。 各インジケータの意味 本可視化の見方を説明します。 前節で述
![強化学習の基本 Qラーニングを直観的に理解するためのアニメーションによる可視化 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/e3045b7a457aaec2aaf847ef2b2826bb151c16dc/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgxJUFFJUU1JTlGJUJBJUU2JTlDJUFDJTIwUSVFMyU4MyVBOSVFMyU4MyVCQyVFMyU4MyU4QiVFMyU4MyVCMyVFMyU4MiVCMCVFMyU4MiU5MiVFNyU5QiVCNCVFOCVBNiVCMyVFNyU5QSU4NCVFMyU4MSVBQiVFNyU5MCU4NiVFOCVBNyVBMyVFMyU4MSU5OSVFMyU4MiU4QiVFMyU4MSU5RiVFMyU4MiU4MSVFMyU4MSVBRSVFMyU4MiVBMiVFMyU4MyU4QiVFMyU4MyVBMSVFMyU4MyVCQyVFMyU4MiVCNyVFMyU4MyVBNyVFMyU4MyVCMyVFMyU4MSVBQiVFMyU4MiU4OCVFMyU4MiU4QiVFNSU4RiVBRiVFOCVBNiU5NiVFNSU4QyU5NiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9Yzk5Nzg4NWExZjlmM2RhOGExMGFlNTE4MGI4NTI5MDI%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDB0bW9rbXNzJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz02N2FlOWE5NGNhYzYzODM5NjY2MGM2YTc5YWYzYzA4MA%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Ddd7707e766af265ef569ba464e9231a5)