
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
第3回 今更だけど基礎から強化学習を勉強する 価値推定編(TD法、モンテカルロ法、GAE) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
第3回 今更だけど基礎から強化学習を勉強する 価値推定編(TD法、モンテカルロ法、GAE) - Qiita
今回はモデルフリーの環境における価値の推定(評価)手法の話がメインとなります。 第2回 ディープラー... 今回はモデルフリーの環境における価値の推定(評価)手法の話がメインとなります。 第2回 ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C) 第4回 連続行動空間編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 環境(CartPole-v0) 第2回と同じ CartPole-v0を使っていきます。 学習コード概要 第2回のA3C/A2Cアルゴリズムをベースに価値関数の評価(推定)手法を見ていきます。 まずはメインとなるコードを作成し、手法に影響ある部分だけを変えて実装していきます。 今回のモデルは以下です。 Actor側の出力を softmax にしていま