タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

強化学習とMDPに関するtsu-neraのブックマーク (2)

  • ゼロからDeepまで学ぶ強化学習 - Qiita

    ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

    ゼロからDeepまで学ぶ強化学習 - Qiita
  • Microsoft PowerPoint - 12RL.ppt

    1 情報意味論(12) 強化学習 櫻井彰人 慶應義塾大学理工学部 まずMDPについて � 確率過程 � マルコフ性 � マルコフ鎖 � マルコフ決定過程 � 強化学習 � 強化学習の技法 確率過程 � 簡単に言えば: ランダムな時系列 � しばしば、インデックスのついた確率変数の集まり と考える � 基: 状態とその状態にいる確率(時刻でインデッ クスされている)の集合 � 離散確率過程を考える 確率過程の例 � 古典: ランダムウォーク � ある時刻 t0 に状態 X0 で開始する � 時刻 ti にて、ステップ Zi だけ動く。ただし P(Zi = -1) = p and P(Zi = 1) = 1 - p � すなわち、時刻 ti においては状態 Xi = X0 + Z1 +…+ Zi http://en.wikipedia.org/wiki/Image:Random_Walk_e

  • 1