o1では従来のモデルのようにユーザーの入力に対して即答せず、考える時間を設けるようになったことで思考プロセスを洗練している。国際数学オリンピックの予備試験で比較したところ、GPT-4oは13%しか正しく解けなかったがo1は83%正答したという。同社によるベンチマークテストでは、o1は物理学、数学、生物学で博士課程の学生と同等のパフォーマンスを発揮したとしている。 安全性においても、ユーザーが意図的にセーフティーを破ろうとする「ジェイルブレイク」のテストに対し、GPT-4oは100点満点中22点であったのに対し、o1-previewは84点を獲得したという。 複雑なタスクで大きな進歩があり、AIが可能とすることの新たなレベルを表しているとして、これまでの「GPT-○」からナンバリングをリセットしてOpenAI o1とした。 ただし、初期のモデルとなるためWeb検索やファイル・画像アップロード