エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
マルコフ決定過程(MDP) - 具体例で学ぶ数学
状態の集合 $S=\{s_1,s_2,\dots\}$ 「自分が一番左下のマスにいて敵が右下にいる状態」など、全てのとり... 状態の集合 $S=\{s_1,s_2,\dots\}$ 「自分が一番左下のマスにいて敵が右下にいる状態」など、全てのとりうる状態を集めたものが $S$ です。 行動の集合 $A=\{a_1,a_2,\dots\}$ 「自分が右に動く」「自分が上に動く」など、自分がとれる行動を集めたものが $A$ です。 遷移確率 $P(s,a,s’)$ 状態 $s$ において行動 $a$ をとったときに、次の状態が $s’$ になる確率 $P(s,a,s’)$ も与えられています。例えば、図の $s_1$ の状態で「$a_1=$ 右に動く」という行動をとったとき、敵は上か左にそれぞれ確率 $\dfrac{1}{2}$ で動くので、$P(s_1,a_1,s_2)=P(s_1,a_1,s_3)=\dfrac{1}{2}$ となります。 報酬 $R(s,a,s’)$ 「状態 $s$ において行動 $a$ をとっ