タグ

ブックマーク / qiita.com/yuishihara (1)

  • いまさらだけどTensorFlowでDQN(不完全版)を実装する - Qiita

    {\begin{align} n &\leftarrow \rho n + (1-\rho)g_r^2 \\ g &\leftarrow \rho g + (1-\rho)g_r \\ m &\leftarrow \beta m - \frac \alpha {(n - g^2 + \gamma)}g_r \end{align}} イメージ的には、RMSPropが平均的な傾きの大きさを見て、値の更新幅を変えるのに対して、RMSPropGravesは傾きの分散に応じて、更新幅を変える感じでしょうか。 あとここで実装したDQNが、もう一点オリジナルと違うのは、通常のRMSPropを使う関係で、論文にあるLoss Clippingも行いません。 理由は、Clippingしたら、まともに学習が進まなかったからです・・・ DQN(不完全版)を実装するには 必要なライブラリ等 TensorFlow A

    いまさらだけどTensorFlowでDQN(不完全版)を実装する - Qiita
  • 1