Unity AI に関するブログシリーズ第 2 回となる本記事では、前回に引き続きコンテクスチュアルバンディット問題を完全な強化学習問題へ拡張する方法を解説します。その一環として、学習された Q 関数(特定の環境下における特定のアクション実行の長期的価値を予測するもの)によって行動するエージェントの使用方法を示したデモもご提供します。この例では、簡単なグリッドと Q 関数の表のみを使用します。幸運なことに、このベーシックなコンセプトがほぼ全てのゲームに当てはまります。Q 学習のデモは、こちらのリンクからお試しにいただけます。以下本文では、Q 学習の仕組みに関する詳細なウォークスルーをお届けします。 コンテクスチュアルバンディットに関する前回のまとめ 強化学習を行う目的は、特定の環境内で、未来の報酬を最大化させるための行動を学習できるエージェントをトレーニングすることです。本シリーズ前回の記