
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
価値ベースアルゴリズムの基礎(Q学習) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
価値ベースアルゴリズムの基礎(Q学習) - Qiita
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 前:強化学習の... この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 前:強化学習の基礎 次:DQN TD法 ベルマン方程式は以下でした。 $$ V_{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s'}p(s'|s,a) \Big( r(s,a,s') + \gamma V_{\pi}(s')\Big) $$ ここで実際にサンプリングした結果を元に価値を予測する手法がTD法となります。 説明用に真の価値を $V_{\pi}^*$ 、予測した価値を $V_{\pi}$、サンプリングした結果得た価値を $V_{\mu}^{'}$ と表します。 ( $\mu$ はサンプリング時に使用した方策となります) あるステップ $t$ でサンプリングした結果得た価値は以下となります。 $$ V_{\mu}^{'}(s_t) = r_{t+1} +