はじめに 深層学習と強化学習を組み合わせた Deep Q Network、通称DQNでOpenAI GymのClassic controlを解くプログラムを作ってみました。 今回はその実装について紹介したいと思います。 DQN自体については DQNの生い立ち + Deep Q-NetworkをChainerで書いた ゼロからDeepまで学ぶ強化学習 の記事がとてもわかりやすく、私もこちらで紹介されている論文やGitHubのコードを参考に実装しました。 強化学習やDQNの理論を知りたい方はこちらをご参考ください。 DQN"もどき"? Deep Q Networkという名前からも分かる通り、DQNは強化学習の1つであるQ学習を多層ニューラルネットで関数近似します。 それに加え、下記の3つの手法を取り入れて初めてDQNと呼べるみたいです。 Experience Replay Fixed Targ