[B! マルコフ決定過程] hsato2011のブックマーク

hsato2011 id:hsato2011

マルコフ決定過程に関するhsato2011のブックマーク (4)

Systems Design Engineering
hsato2011 2016/12/19
マルコフ決定過程

作成
リンク
マルコフ決定過程 - Wikipedia
マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。概要[編集] 3つの状態と2つの行動をもつ簡単な MDP の例マルコフ決定過程は離散時間における確率制御
hsato2011 2016/11/09
マルコフ決定過程（MDP）の説明

マルコフ決定過程

意思決定

中台さん対策

小山田さん対策

強化学習
リンク
Pythonではじめる強化学習 - Qiita
はじめにみなさん、強化学習してますか？強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。エージェントは時刻 $t$ において環境の状態 $s_t$ を観測観測した状態から行動 $a_t$ を決定エージェントは行動を実行環境は新しい状態 $s_{t+1}$ に遷移遷移に応じた報酬 $r_{t+1}$ を獲得学習するステップ1から繰り返す強化学習の目的は、エージェントが取得する利得（累積報酬）を最大化するような、状態
hsato2011 2016/10/26
強化学習の説明

強化学習

エージェント

マルコフ決定過程

あとで読む

関連研究
リンク
確率ロボティクス（大学院2015年度秋学期） – CIT Autonomous Robots Lab
ハッシュタグ: #probrobo2015 講義内容第十四回課題の発表会でした。事後学習ツメの甘かった人は再度挑戦。第十三回 GraphSLAM 事前学習 GraphSLAMの文献調査。スライド
hsato2011 2016/10/17
あとで読む

ロボット

マルコフ決定過程

ハッシュタグ

勉強

統計
リンク
1