経路探索問題を強化学習で解き、その過程をアニメーションで可視化しました。 ↑↓で速度調節、Spaceで最速の学習、ドラッグ or タップで障害物の追加ができます。 これにより、強化学習で何をしているのか直観的に分かりやすくなりました。 問題設定 本アニメーションで可視化している問題の設定は、下記の通りです。 条件 $n\times n$のマスからなる離散的なフィールド 固定の初期位置と目標位置(⭐)、障害物が配置されている 障害物(🔴)は、踏んだら死ぬ。初期位置からやり直し 自機(👾)は単位時間に8方向のいずれかへ1マス移動できる 横移動と斜め移動のコストは同じ 得たい出力 初期位置から目標位置までの、障害物を回避した最短経路 この問題を強化学習のフレームワークに落とし込み、Qラーニングで求解しています。 詳細は後述します。 各インジケータの意味 本可視化の見方を説明します。 前節で述