S: スタート G: ゴール W: 壁 このような複数経路ある迷路を、スタートからゴールまで最短で到達することを目指します。 ちなみにこの迷路は迷路自動作成ツールを使って作りました。 エージェントはマップ全体を見ることができず、上、下、左、右の4つのどれかの行動をした結果、移動できれば移動し、移動できなければ(壁なら)その場に留まります。 暗闇で移動しているイメージです。 移動した結果、ゴールならゴールであると認識できます。 テーブルのQ学習 実装部分 呼び出し側 Qテーブル テーブルのQ学習では、「状態$s$ $\times$ 行動$a$」の価値を表すテーブル$Q(s, a)$を持ち、これを更新していくことで学習を進めます。 迷路の例では、状態$s$は位置情報、行動$a$は上下左右の4つです。 学習(更新式) 状態$s$で行動$a$を選択して、状態$s'$になったときに、価値テーブル$Q
