エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【強化学習】Experience Replay の研究の傾向とその考察
この記事は強化学習 Advent Calendar 2021の12/11の記事です。 0. はじめに 強化学習は(一般的には)学... この記事は強化学習 Advent Calendar 2021の12/11の記事です。 0. はじめに 強化学習は(一般的には)学習に必要なデータをプログラム自身が能動的に探索する必要があります。そのため、深層学習のネットワークの大きさや形状だけでなく、探索・学習の方法などロジック全体が重要です。気をつけるべき点や工夫できる点が多岐に渡るため、非常に難しいと同時にとてもおもしろいろ感じています。 この記事では、私が興味を持ってライブラリを開発したり、定期的に(?)記事を書いたりしているExperience Replay (経験再生) について、個人的に感じている近年の研究のポイントについて書こうと思います。 1. Experience Replay研究の着目点 強化学習(のoff-policyな手法)では、遷移 (一般には(s_t, a_t, r_t, s_{t+1}, d_t)の組)をRe



2025/05/15 リンク