タグ

MachineLearningとQ-learningに関するtnalのブックマーク (4)

  • ゼロからDeepまで学ぶ強化学習 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 記事の内容をベースに、ハンズオンイベントを開

    ゼロからDeepまで学ぶ強化学習 - Qiita
  • DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

    はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました 公開しました 。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。(ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。) この記事ではNIPSとNatureの以下の2の論文 ・ V

    DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
  • 分散深層強化学習でロボット制御 - Preferred Networks Research & Development

    新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

    分散深層強化学習でロボット制御 - Preferred Networks Research & Development
  • NIPS2013読み会を開催しました - Preferred Networks Research & Development

    もう花粉飛んでるらしいですね。比戸です。 昨年開いたICML2013読み会に続き、NIPS2013の論文を紹介する会を開きました。平日夜にも関わらず60名以上の申し込み、50名以上の参加があり、改めて機械学習への興味の高さを裏付けるものとなりました。会場提供にご協力頂いた東大の武田朗子先生、中川裕志先生、および発表者の皆さんありがとうございました。 ここで特筆したいのが、@mooopanさんが選んだ”Playing Atari with Deep Reinforcement Learning“です。 話題のDeep Neural Networkと強化学習を組み合わせて、テレビゲームで人間にも勝ったという、この日唯一のワークショップ論文紹介だったのですが、なんと著者の所属するDeepMind TechnologiesがGoogleに500億円以上で買収されたというニュースが3日前飛び込んでき

    NIPS2013読み会を開催しました - Preferred Networks Research & Development
  • 1