【論文紹介】 PGQ: Combining Policy Gradient And Q-learning O’Donoghue et al. ICLR 2017 紹介者: Sotetsu KOYAMADA (@sotetsuk)Read less
【論文紹介】 PGQ: Combining Policy Gradient And Q-learning O’Donoghue et al. ICLR 2017 紹介者: Sotetsu KOYAMADA (@sotetsuk)Read less
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
こんにちは!吉田です.東北大学で博士学生をしています. このたび,Preferred Networks(PFN)で4月・5月と春インターンに参加させていただきました. インターンでは,Deep Deterministic Policy Gradientと呼ばれる強化学習の手法を用いて,TORCSというレースゲーム内で自動車に自動運転を自分で1から学習させるという内容に取り組みました. これは私が以前 Chainer を使って Deep Q-Network (DQN) と呼ばれる深層強化学習を再現した経験があり,またインターンでも強化学習に関連したタスクをしたいという希望をマッチングした結果で,個人的にも大変興味をもって取り組めたと思います. TORCS(The Open Racing Car Simulator)はオープンソースのドライビングシミュレータとして公開されていて,近年の強化学習
昨日黒橋研・河原研合同の勉強会で強化学習について話しました。話している中でわかったこともあるので、整理をするため、そのメモなど。 強化学習とは 一般的に言語処理で用いられる教師あり機械学習とは少し異なります。教師あり学習では入力(観測データ)x と出力(正解ラベル)y が与えられ、P(y|x)をどう解くかという問題になります(雑な説明 一方、強化学習においては、入力(観測データ)x に対してモデルからの出力(action)u があり、それによって観測データx がx' へと変化します。その変化に対する報酬関数(reward function)を定義し、その報酬関数を最大化することによってモデルの振る舞いを決定する、というアプローチになります。 強化学習はモデルの振る舞いの系列と、それに対するデータの変化を扱うことができるので、ロボット制御や対話制御などによく用いられます。 強化学習全体を図に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く