タグ

*あとで読むと強化学習に関するNATTIのブックマーク (3)

  • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

    概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

    kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
  • 強化学習における好奇心

    【2020年アップデート版】 強化学習では,環境で得られる報酬がスパースである場合,うまく学習することができない.この問題を解決するための手法として,強化学習のエージェントに「好奇心」を与える研究が注目されている.スライドでは,深層強化学習の登場以降に発表された「好奇心」を利用した強化学習の研究をまとめた.特に主要ベンチマークであるMontezuma's Revengeで高いパフォーマンスを発揮したアルゴリズムについて詳しく解説する.また,「好奇心」による探索を報酬がスパースな場合以外の強化学習に適用した場合の最新研究についても紹介する. 現在は,資料の修正・アップデート版を以下で公開しています. 【強化学習における好奇心】 https://www.slideshare.net/ShotaImai3/curiosity-reinforcement-learning-238344056

    強化学習における好奇心
  • 分散深層強化学習でロボット制御 - Preferred Networks Research & Development

    新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

    分散深層強化学習でロボット制御 - Preferred Networks Research & Development
  • 1