はじめに この記事は前回の記事の続きです。 前回は素のTensorflow(2016年7月時点)だけで実装できる、なんちゃってDQN(不完全版)を紹介しましたが、ここではMnihらの2015年の論文で実際に実装された方法を忠実に再現する方法について書いています。 不完全版と今回の完全版の違い Optimizerを通常のRMSPropからA.Gravesが導入したRMSPropに変更 Loss clippingを行う 特に1は問題で、素のTensorflowには実装されていないため、独自で実装する必要があります。 ここでは、Tensorflowでの実装方法とそこから得られる結果を紹介します。 A.GravesによるRMSPropの実装 Tensorflowで新しいOptimizerを作るには、TensorflowのPythonコードとCppのコードに手を加える必要があります。 具体的には下記