Deep Reinforcement Learning with Double Q-learning [1509.06461] Deep Reinforcement Learning with Double Q-learning 論文まとめ Q-learningは、maxを取っている関係上、action-valueを過大評価(overestimate)する傾向があることが知られている. これまでに挙げられていた過大評価の原因 柔軟性が不十分な関数近似による誤差 Thrun and Schwartz (1993) 環境のノイズ van Hasselt (2010) この論文ではより一般的に、任意の推定誤差によって過大評価は引き起こされることが示されている. 学習過程では必ず不正確な推定値になってしまうのでこれは重要な問題. Double Q-learning (van Hasselt, 20