[B! 強化学習] rishidaのブックマーク

rishida id:rishida

強化学習に関するrishidaのブックマーク (4)

【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】 PGQ: Combining Policy Gradient And Q-learning O’Donoghue et al. ICLR 2017 紹介者: Sotetsu KOYAMADA (@sotetsuk)Read less
rishida 2017/03/27
強化学習
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
rishida 2016/06/16
強化学習

deep learning
リンク
カーシミュレータでゼロから学ぶ，自動運転 - Preferred Networks Research & Development
こんにちは！吉田です．東北大学で博士学生をしています．このたび，Preferred Networks（PFN）で4月・５月と春インターンに参加させていただきました．インターンでは，Deep Deterministic Policy Gradientと呼ばれる強化学習の手法を用いて，TORCSというレースゲーム内で自動車に自動運転を自分で１から学習させるという内容に取り組みました．これは私が以前 Chainer を使って Deep Q-Network (DQN) と呼ばれる深層強化学習を再現した経験があり，またインターンでも強化学習に関連したタスクをしたいという希望をマッチングした結果で，個人的にも大変興味をもって取り組めたと思います． TORCS（The Open Racing Car Simulator）はオープンソースのドライビングシミュレータとして公開されていて，近年の強化学習
rishida 2016/06/08
強化学習

deep learning
リンク
強化学習・MDP - あしたからがんばる ―椀屋本舗
昨日黒橋研・河原研合同の勉強会で強化学習について話しました。話している中でわかったこともあるので、整理をするため、そのメモなど。強化学習とは一般的に言語処理で用いられる教師あり機械学習とは少し異なります。教師あり学習では入力(観測データ)x と出力(正解ラベル)y が与えられ、P(y|x)をどう解くかという問題になります(雑な説明一方、強化学習においては、入力(観測データ)x に対してモデルからの出力(action)u があり、それによって観測データx がx' へと変化します。その変化に対する報酬関数(reward function)を定義し、その報酬関数を最大化することによってモデルの振る舞いを決定する、というアプローチになります。強化学習はモデルの振る舞いの系列と、それに対するデータの変化を扱うことができるので、ロボット制御や対話制御などによく用いられます。強化学習全体を図に
rishida 2015/06/11
Partially Observed Markov Decision Processの話

強化学習

資料
リンク
1