マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 概要[編集] 3つの状態と2つの行動をもつ簡単な MDP の例 マルコフ決定過程は離散時間における確率制御
はじめに みなさん、強化学習してますか? 強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。 強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。 エージェントは時刻 $t$ において環境の状態 $s_t$ を観測 観測した状態から行動 $a_t$ を決定 エージェントは行動を実行 環境は新しい状態 $s_{t+1}$ に遷移 遷移に応じた報酬 $r_{t+1}$ を獲得 学習する ステップ1から繰り返す 強化学習の目的は、エージェントが取得する利得(累積報酬)を最大化するような、状態
ハッシュタグ: #probrobo2015 講義内容 第十四回 課題の発表会でした。 事後学習 ツメの甘かった人は再度挑戦。 第十三回 GraphSLAM 事前学習 GraphSLAMの文献調査。 スライド
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く