前回の記事で書きましたように、DeepMind社の最新論文Asynchronous Methods for Deep Reinforcement Learning、16 Jun 2016に書かれた手法A3C(Asynchronous Advantage Actor-critic)の再現コードをGithubで見つけたので、実際に走らせて試行中。 Pongの学習結果 約27時間(36.5M steps)の学習を行った結果が下記です。横軸は学習量(steps、ゲーム画面のframe数に相当)で1M steps単位です。縦軸はゲームSOREです。 Github掲載グラフ(A3C-LSTM)では、下記のように、12h(18M steps)あたりで急激にゲームSOREが上がり、16h(24M steps)でほぼ最大になっています。 Github掲載グラフと当方グラフでスケールが異なり申し訳ないのですが