タグ

ブックマーク / qiita.com/d-ogawa (1)

  • Prioritized Experience Replayを読んだ - Qiita

    Tom Schaul, John Quan, Ioannis Antonoglou, David Silver ICLR 2016 arXiv, pdf どんなもの? 深層強化学習を安定して行うためのテクニックにExperience Replayがある. この論文では,保存したExperienceに優先順位をつけてサンプリングを行うことで,深層強化学習の性能の向上を目指す. 先行研究との差分 深層強化学習に有効な,保存したExperienceへの優先順位の与え方,サンプリング方法を提案した. 技術や手法のキモ Prioritizing with TD-error 遷移によってどれだけ学習できたか,というのは直接求められないため,TD誤差を用いる. このTD誤差の大きさは,その遷移がどれだけの「驚き」や「予想外」をもたらすかを表している. Greedy TD-error priorizati

    Prioritized Experience Replayを読んだ - Qiita
  • 1