強化学習 - 2020論文までの道のり(Q学習中心～R2D3, Agent57) - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/aiueola

47 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

misshiki 強化学習とは～全体俯瞰（Q学習／SARSA／方策勾配法／Actor-Critic法）、Q学習<基礎～DQN～R2D3, Agent57>、Q学習とActor-Criticとの関係をコンパクトにまとめ、付録でマルチエージェント強化学習とオフライン強化学習に触れている。

強化学習

2021/05/27 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

強化学習 - 2020論文までの道のり(Q学習中心～R2D3, Agent57) - Qiita

強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで，最初は強化学習の基礎の... 強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで，最初は強化学習の基礎の基礎の解説から，Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました．Actor-Criticについては，Q学習との比較用にA3Cあたりを少しだけ書いています．あと，最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています．基礎の基礎強化学習とは？教師あり学習，教師無し学習に並ぶ，機械学習の一分野．端的に言うと，エージェントと呼ばれる行動主体が，ある環境のなかで得られる報酬を最大化する最適化問題．ただし，報酬を得るためにどうしたらよいかというのは非自明な場合が多く，また，報酬のみではスパースで扱いにくいので，途中の過程ででてくる状態や，エージェントの行動に価値を付与し，その価値を最大化する問題に

ブックマークしたユーザー

techtech05212024/04/06
katz19552021/10/24
clavier2021/06/20
ohtaman2021/05/28
nack_bee2021/05/28
iihiro2021/05/27
martin_lover_se2021/05/27
morioka2021/05/27
kuumon2021/05/27
sakito09022021/05/27
amebacore2021/05/27
munyaX2021/05/27
se7en12021/05/27
mstk_knife2021/05/27
bando_alpha2021/05/27
misshiki2021/05/27
illbit2021/05/27
knok2021/05/27

同じサイトの新着

ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する - Qiita

4 usersqiita.com/aiueola

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx