[B! probability-theory][markov-decision-process] nabinnoのブックマーク

nabinno id:nabinno

probability-theoryとmarkov-decision-processに関するnabinnoのブックマーク (1)

マルコフ決定過程 - Wikipedia
マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。概要[編集] 3つの状態と2つの行動をもつ簡単な MDP の例マルコフ決定過程は離散時間における確率制御
nabinno 2023/01/22
markov-decision-process

markov-chain

probability-theory

statistics
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx