[B! 強化学習][MDP] tsu-neraのブックマーク

tsu-nera id:tsu-nera

強化学習とMDPに関するtsu-neraのブックマーク (2)

ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
tsu-nera 2017/06/10
強化学習

MDP

dqn
リンク
Microsoft PowerPoint - 12RL.ppt
1 情報意味論（１２）強化学習櫻井彰人慶應義塾大学理工学部まずMDPについて � 確率過程 � マルコフ性 � マルコフ鎖 � マルコフ決定過程 � 強化学習 � 強化学習の技法確率過程 � 簡単に言えば: ランダムな時系列 � しばしば、インデックスのついた確率変数の集まりと考える � 基本: 状態とその状態にいる確率（時刻でインデックスされている）の集合 � 離散確率過程を考える確率過程の例 � 古典: ランダムウォーク � ある時刻 t0 に状態 X0 で開始する � 時刻 ti にて、ステップ Zi だけ動く。ただし P(Zi = -1) = p and P(Zi = 1) = 1 - p � すなわち、時刻 ti においては状態 Xi = X0 + Z1 +…+ Zi http://en.wikipedia.org/wiki/Image:Random_Walk_e
tsu-nera 2017/06/10
MDP

強化学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx