1. はじめに前回、OpenAI o1をどう作るかについて概要レベルで議論しました。 OpenAI o1が新しい強化学習手法を用いて強化されたモデルであることは確実であり、具体的にどういうロジックで学習されているか考えていきたいと思います。 強化学習について間違った理解があればご指摘ください。(一応学習はしたものの普段使いしているわけではないので忘れているところもあると思います。) 2. 強化学習の手法一般的に強化学習において、最終的な目標は方策モデル(方策関数)の性能を高めることにあると思います。 方策モデルとは、ある環境においてエージェントがどう動くのかを決定するモデル・アルゴリズムです。 迷路探索タスクにおいては次のステップの移動先を上下左右のマスから決定するアルゴリズムを指しますし、言語生成タスクにおいては文章を生成する主体であるLLM自体が方策モデルです。 方策モデルは、環境や報