過去に集めたデータのみを用いて強化学習を行うオフライン強化学習に注目が集まっています.ではオフライン強化学習は,オンラインで環境と作用し学習する一般的な強化学習と比べてどのようなメリットや,技術的な違いがあるのでしょうか? 本記事では,オフライン強化学習の基礎から最新の話題を橋渡しすることを目指します.まずオフライン強化学習のモチベーションから導入し,次に技術的に見たオンラインとオフラインの場合の違いを説明します.そして,オフライン強化学習における代表的な手法のひとつであるConservative Q-Leaning(CQL) と,その派生モデルのCOMBO, S4RLについて簡単に紹介します.(本記事ではモデルフリーQ学習が中心です) また,最終章では本記事執筆にあたり行ったサーベイに基づく分野の未解決課題と今後の展望を独自の視点でまとめています.これらはあくまで個人的な所感ではあります