タグ

ブックマーク / sysplan.nams.kyushu-u.ac.jp (1)

  • 連続な空間における強化学習

    説明用OHP資料 離散的ではない空間のValueを学習するには? 離散状態表現による近似 離散状態表現による近似の問題点 線形アーキテクチャによる汎化と関数近似 Radial Basis Function (RBF)を用いた線形アーキテクチャ 線形アーキテクチャにおける更新処理(TD法) 線形アーキテクチャを用いたTD法の更新例 線形アーキテクチャにおける更新処理(Q-learning) 線形アーキテクチャによる汎化と関数近似:特徴ベクトルについて 連続な行動空間を扱う強化学習:Actor-Critic Actor-Criticを連続行動空間へ拡張するには? 連続な行動空間を扱う強化学習:Q-learning (1) 連続な行動空間を扱う強化学習:Q-learning (2) 参考文献 [Baird 95b] Baird, L.: Residual Algorithms: Reinforc

  • 1