エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【強化学習】方策勾配法の仕組みと学習のワークフロー - ころがる狸
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【強化学習】方策勾配法の仕組みと学習のワークフロー - ころがる狸
こんばんは。今日のテーマは方策勾配法です。前回の記事では強化学習の基礎から深層強化学習(DQN)まで... こんばんは。今日のテーマは方策勾配法です。前回の記事では強化学習の基礎から深層強化学習(DQN)までを扱いました。そこでは状態や行動の価値Qの見積もりをいかにして最適化するかという考え方が根底にありましたが、方策勾配法では価値ではなくエージェントの方策(≒エージェントの行動確率)を最適化することが目的です。本記事では学習のワークフローをまじえながら方策勾配法を解説します。 【参考資料】強化学習の入門記事はこちら。 dajiro.hatenablog.com (式の展開をすっ飛ばしたい人は、方策勾配法のワークフローからご覧ください!) 方策勾配法の仕組み 学習のワークフロー おさらい ワークフロー 方策勾配法による学習の実施 1.価値の計算 2.行動確率の計算 3.勾配の計算 方策勾配法の仕組み 方策勾配法は、エージェントの行動確率をニューラルネットワークで表現するためのテクニックです。その