マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 概要[編集] 3つの状態と2つの行動をもつ簡単な MDP の例 マルコフ決定過程は離散時間における確率制御
![マルコフ決定過程 - Wikipedia](https://cdn-ak-scissors.b.st-hatena.com/image/square/7875cda7cea21fef86a2fae27ff576ea59b2fdce/height=288;version=1;width=512/https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fthumb%2F2%2F21%2FMarkov_Decision_Process_example.png%2F400px-Markov_Decision_Process_example.png)