エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Q学習 - Wikipedia
Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習(Q-learnin... Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習(Q-learning)という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ(Christopher J.C.H. Watkins)の博士論文に端を発する。[1] TD学習は になるように学習させるが、Q学習はこれを に置き換えたものである。状態価値関数 の代わりに、行動価値関数 を使用する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。 Q学習では実行するルールに対しそのルールの有効性を示す行動価値のQ値(Q-value)という値を持たせ、エージ