オフライン強化学習の有名手法CQLについて、簡単な解説とともにブロック崩し環境向けのtf2実装を紹介します [2006.04779] Conservative Q-Learning for Offline Reinforcement Learning sites.google.com はじめに:オフライン強化学習とは 問題設定:ゲーム実況を見るだけで上手にプレイできるか? 実世界でのユースケース 模倣学習との違いなど オフライン強化学習の難しさ データセットサイズは問題を解決しない Out of Distribution: データセット分布外アクションの過大評価 もっと詳しく CQL:保守的なQ学習 前例が無いからダメです 方策の正則化 CQL(H)のTF2実装 DQN Replay Datasetの利用 ブロック崩しの学習結果 次:Decision Transformer 前提手法: h
