エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C) - Qiita
第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/... 第2回 今更だけど基礎から強化学習を勉強する ディープラーニング編(Q学習、方策勾配法/REINFORCE、A3C/A2C)Python機械学習強化学習Q学習Keras 今回は基本的にモデルフリーの環境が前提となります。 モデルベースについてはいつかやるかも? 第1回 基礎編(動的計画法、Q学習、SARSA、Actor Critic) 第3回 価値推定編(TD法、モンテカルロ法、GAE) ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ディープラーニングに使うライブラリですが、Tensowflow2.0(+Keras)を使います。 Tensowflow2.0から公式でKerasが取り入れられたようでそちらを使っていきます。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 環境 OpenAI gym で提