
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C) - Qiita
今回は基本的にモデルフリーの環境が前提となります。 モデルベースについてはいつかやるかも? 第1回 ... 今回は基本的にモデルフリーの環境が前提となります。 モデルベースについてはいつかやるかも? 第1回 基礎編(動的計画法、Q学習、SARSA、Actor Critic) 第3回 価値推定編(TD法、モンテカルロ法、GAE) ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ディープラーニングに使うライブラリですが、Tensowflow2.0(+Keras)を使います。 Tensowflow2.0から公式でKerasが取り入れられたようでそちらを使っていきます。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 環境 OpenAI gym で提供されている CartPole-v0 を使用します。 台座を右か左に動かして棒を立たせ続けるゲームです。 棒がある一定以上傾いたり、画面外に行くと終了します。 報酬は常に