[B! Q-learning] tnalのブックマーク

ゼロからDeepまで学ぶ強化学習 - Qiita

ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

tnal 2016/06/08

リンク

DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita

はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V

tnal 2015/07/27

リンク

分散深層強化学習でロボット制御 - Preferred Networks Research & Development

新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます！まずはこの動画を御覧ください。以下で、動画の見どころと、使っている技術を紹介します。動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。目の前に車がいるときは一時停止して、いなくなってから加速する。エチオピアには本当にこのような交差点があるらしい。ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

tnal 2015/06/16

リンク

CaffeでDeep Q-Networkを実装して深層強化学習してみた - 学生時代に頑張ったことが何もない

概要深層学習フレームワークCaffeを使って，Deep Q-Networkという深層強化学習アルゴリズムをC++で実装して，Atari 2600のゲームをプレイさせてみました． Deep Q-Network Deep Q-Network（以下DQN）は，2013年のNIPSのDeep Learning Workshopの"Playing Atari with Deep Reinforcement Learning"という論文で提案されたアルゴリズムで，行動価値関数Q(s,a)を深層ニューラルネットワークにより近似するという，近年の深層学習の研究成果を強化学習に活かしたものです．Atari 2600のゲームに適用され，既存手法を圧倒するとともに一部のゲームでは人間のエキスパートを上回るスコアを達成しています．論文の著者らは今年Googleに買収されたDeepMindの研究者です． NIPS

tnal 2015/02/26

リンク

Playing Atari with Deep Reinforcement Learning

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning E

tnal 2015/02/26

リンク

NIPS2013読み会を開催しました - Preferred Networks Research & Development

もう花粉飛んでるらしいですね。比戸です。昨年開いたICML2013読み会に続き、NIPS2013の論文を紹介する会を開きました。平日夜にも関わらず60名以上の申し込み、50名以上の参加があり、改めて機械学習への興味の高さを裏付けるものとなりました。会場提供にご協力頂いた東大の武田朗子先生、中川裕志先生、および発表者の皆さんありがとうございました。ここで特筆したいのが、@mooopanさんが選んだ”Playing Atari with Deep Reinforcement Learning“です。話題のDeep Neural Networkと強化学習を組み合わせて、テレビゲームで人間にも勝ったという、この日唯一のワークショップ論文紹介だったのですが、なんと著者の所属するDeepMind Techno logiesがGoogleに500億円以上で買収されたというニュースが3日前飛び込んでき

tnal 2014/02/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

Q-learningに関するtnalのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス