Q学習 - Wikipedia

テクノロジーカテゴリーの変更を依頼記事元:

ja.wikipedia.org

19 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Q学習 - Wikipedia

Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習（Q-learnin... Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習（Q-learning）という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ（Christopher J.C.H. Watkins）の博士論文に端を発する。[1] TD学習はになるように学習させるが、Q学習はこれをに置き換えたものである。状態価値関数の代わりに、行動価値関数を使用する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。 Q学習では実行するルールに対しそのルールの有効性を示す行動価値のQ値（Q-value）という値を持たせ、エージ

ブックマークしたユーザー

yuiseki2024/08/10
gabill2023/11/25
tyosuke20112023/05/03
Itisango2019/05/30
nzuser2017/11/18
toremoro2017/08/23
chess-news2017/05/14
tuki09182017/01/07
stoikheia2016/08/09
koyancya2015/12/04
ma__ko__to2015/03/11
nabinno2014/12/08
satzz2010/07/01
yasuf2010/01/08

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx