y034112のブックマーク - はてなブックマーク

y034112 id:y034112

ブックマーク / qiita.com/d-ogawa (1)

Prioritized Experience Replayを読んだ - Qiita
Tom Schaul, John Quan, Ioannis Antonoglou, David Silver ICLR 2016 arXiv, pdf どんなもの？深層強化学習を安定して行うためのテクニックにExperience Replayがある．この論文では，保存したExperienceに優先順位をつけてサンプリングを行うことで，深層強化学習の性能の向上を目指す．先行研究との差分深層強化学習に有効な，保存したExperienceへの優先順位の与え方，サンプリング方法を提案した．技術や手法のキモ Prioritizing with TD-error 遷移によってどれだけ学習できたか，というのは直接求められないため，TD誤差を用いる．このTD誤差の大きさは，その遷移がどれだけの「驚き」や「予想外」をもたらすかを表している． Greedy TD-error priorizati
y034112 2019/03/06
強化学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx