タグ

2019年3月6日のブックマーク (3件)

  • Prioritized Experience Replayを読んだ - Qiita

    Tom Schaul, John Quan, Ioannis Antonoglou, David Silver ICLR 2016 arXiv, pdf どんなもの? 深層強化学習を安定して行うためのテクニックにExperience Replayがある. この論文では,保存したExperienceに優先順位をつけてサンプリングを行うことで,深層強化学習の性能の向上を目指す. 先行研究との差分 深層強化学習に有効な,保存したExperienceへの優先順位の与え方,サンプリング方法を提案した. 技術や手法のキモ Prioritizing with TD-error 遷移によってどれだけ学習できたか,というのは直接求められないため,TD誤差を用いる. このTD誤差の大きさは,その遷移がどれだけの「驚き」や「予想外」をもたらすかを表している. Greedy TD-error priorizati

    Prioritized Experience Replayを読んだ - Qiita
  • Prioritized Experience Replay - DeepLearningを勉強する人

    [1511.05952] Prioritized Experience Replay 論文まとめ Online RLの問題点 遷移(transition)間の依存関係の影響が大きい レアな遷移をすぐに捨ててしまう そこで、 Experience Replay(ER) DQNでは、replay mem.からランダムサンプリングしたミニバッチを使って更新する. ERをより効率的、効果的にするには?? 優先順位を付けてサンプリングする. より学習の進行が期待される遷移をより頻繁にリプレイするようにする. ニューロサイエンス的な話 休憩している時や寝ている時に、海馬は過去の経験を"リプレイ"している. 特に、報酬に結びついている経験をより頻繁にリプレイしているらしい. 更に、"TD-error"の大きい経験もより頻繁にリプレイされるらしい. Planningにおけるprioritization p

  • FPGA開発日記

    RISC-VにおけるRVWMOの仕様について読み直す 1. RVWMOの概要 (24/02/01) 2. 構文依存性の定義 (24/02/02) 3. Preserved Program Order / Memory Model Axioms (24/02/04) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/05) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/06) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/07) RISC-V仕様書 : Appendix A. RVWMO Explanatory

    FPGA開発日記
    y034112
    y034112 2019/03/06