マルコフ決定過程（MDP） - 具体例で学ぶ数学

学びカテゴリーの変更を依頼記事元:

mathwords.net

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

マルコフ決定過程（MDP） - 具体例で学ぶ数学

状態の集合 $S=\{s_1,s_2,\dots\}$ 「自分が一番左下のマスにいて敵が右下にいる状態」など、全てのとり... 状態の集合 $S=\{s_1,s_2,\dots\}$ 「自分が一番左下のマスにいて敵が右下にいる状態」など、全てのとりうる状態を集めたものが $S$ です。行動の集合 $A=\{a_1,a_2,\dots\}$ 「自分が右に動く」「自分が上に動く」など、自分がとれる行動を集めたものが $A$ です。遷移確率 $P(s,a,s’)$ 状態 $s$ において行動 $a$ をとったときに、次の状態が $s’$ になる確率 $P(s,a,s’)$ も与えられています。例えば、図の $s_1$ の状態で「$a_1=$ 右に動く」という行動をとったとき、敵は上か左にそれぞれ確率 $\dfrac{1}{2}$ で動くので、$P(s_1,a_1,s_2)=P(s_1,a_1,s_3)=\dfrac{1}{2}$ となります。報酬 $R(s,a,s’)$ 「状態 $s$ において行動 $a$ をとっ

ブックマークしたユーザー

none532017/12/17

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 学び

いま人気の記事 - 学びをもっと読む

新着記事 - 学び

新着記事 - 学びをもっと読む

設定を変更しましたx