ディープラーニング研究では国内トップレベルの東京大学の松尾豊研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、世界モデル研究において注目が集まっている「TD-MPC」について取り上げる。 本記事では、モデルベース強化学習において、近年高い性能を示している「Temporal Difference Learning for Model Predictive Control(TD-MPC)」という手法について紹介し、近年の動画生成AIと比較して世界モデル研究の方向性について述べる。 強化学習は、報酬の(割引)累積和を最大化するような方策を学習することを目的とする。中でもモデルベース強化学習は、環境の状態が行動によって次の時刻にどのように変わるかという状態遷移モデルを用いて、方策を学習したり、プランニング(現在の状態から将来の複数のステップを予測し、その予測に基づ