3つの要点 ✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成 続きを読むには (3155文字画像6枚) AI-SCHOLARに 登録いただく必要があります。 1分で無料で簡単登録する または ログイン
Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています. Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar
DQN? キャッチーな名前ですが"ドキュン"ではありません(笑)。 "Deep Q Network"の略です。 深層学習 (Deep Learning) と 強化学習の一種である Q Learning を組み合わせたもので、 Google に買収された DeepMind の研究者らによって発案されました。 強化学習というと何らかのゲームに使うことが多い訳ですが、DQNの場合はAtari2600というゲーム機用のアーケードゲームでその性能を試しています。 そして数多くのゲームで人間よりも高いスコアをたたき出しています。 実際にDQNがゲームをプレイしている動画がこちらです。( muupanさんという方の動画 ) Deep Q-Network Plays Atari 2600 Pong - YouTube つい最近も Google が人工知能「DQN」を開発した、として話題になりましたね。 D
新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには本当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って
ConvNetJS Deep Q Learning Demo Description This demo follows the description of the Deep Q Learning algorithm described in Playing Atari with Deep Reinforcement Learning, a paper from NIPS 2013 Deep Learning Workshop from DeepMind. The paper is a nice demo of a fairly standard (model-free) Reinforcement Learning algorithm (Q Learning) learning to play Atari games. In this demo, instead of Atari ga
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く