y034112のブックマーク / 2019年3月6日

y034112 id:y034112

2019年3月6日のブックマーク (3件)

Prioritized Experience Replayを読んだ - Qiita
Tom Schaul, John Quan, Ioannis Antonoglou, David Silver ICLR 2016 arXiv, pdf どんなもの？深層強化学習を安定して行うためのテクニックにExperience Replayがある．この論文では，保存したExperienceに優先順位をつけてサンプリングを行うことで，深層強化学習の性能の向上を目指す．先行研究との差分深層強化学習に有効な，保存したExperienceへの優先順位の与え方，サンプリング方法を提案した．技術や手法のキモ Prioritizing with TD-error 遷移によってどれだけ学習できたか，というのは直接求められないため，TD誤差を用いる．このTD誤差の大きさは，その遷移がどれだけの「驚き」や「予想外」をもたらすかを表している． Greedy TD-error priorizati
y034112 2019/03/06
強化学習
リンク
Prioritized Experience Replay - DeepLearningを勉強する人
[1511.05952] Prioritized Experience Replay 論文まとめ Online RLの問題点遷移(transition)間の依存関係の影響が大きいレアな遷移をすぐに捨ててしまうそこで、 Experience Replay(ER) DQNでは、replay mem.からランダムサンプリングしたミニバッチを使って更新する. ERをより効率的、効果的にするには？？優先順位を付けてサンプリングする. より学習の進行が期待される遷移をより頻繁にリプレイするようにする. ニューロサイエンス的な話休憩している時や寝ている時に、海馬は過去の経験を"リプレイ"している. 特に、報酬に結びついている経験をより頻繁にリプレイしているらしい. 更に、"TD-error"の大きい経験もより頻繁にリプレイされるらしい. Planningにおけるprioritization p
y034112 2019/03/06
強化学習
リンク
FPGA開発日記
RISC-VにおけるRVWMOの仕様について読み直す 1. RVWMOの概要 (24/02/01) 2. 構文依存性の定義 (24/02/02) 3. Preserved Program Order / Memory Model Axioms (24/02/04) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/05) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/06) RISC-V仕様書 : Appendix A. RVWMO Explanatory Material, Version 0.1 (24/02/07) RISC-V仕様書 : Appendix A. RVWMO Explanatory
y034112 2019/03/06
FPGA
リンク
- 2019年3月7日
- 2019年3月6日
- 2019年3月5日