価値ベースアルゴリズムの基礎(Q学習) - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/pocokhc

2users がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

価値ベースアルゴリズムの基礎(Q学習) - Qiita

この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。前：強化学習の... この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。前：強化学習の基礎次：DQN TD法ベルマン方程式は以下でした。 $$ V_{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s'}p(s'|s,a) \Big( r(s,a,s') + \gamma V_{\pi}(s')\Big) $$ ここで実際にサンプリングした結果を元に価値を予測する手法がTD法となります。説明用に真の価値を $V_{\pi}^*$ 、予測した価値を $V_{\pi}$、サンプリングした結果得た価値を $V_{\mu}^{'}$ と表します。（ $\mu$ はサンプリング時に使用した方策となります）あるステップ $t$ でサンプリングした結果得た価値は以下となります。 $$ V_{\mu}^{'}(s_t) = r_{t+1} +

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx