OpenAIのサム・アルトマンCEOが自身のXアカウントに「o2がGPQAで105%のスコアを達成したと聞いた」と2024年11月3日(日)に投稿しました。「o2」の正式名称は不明ですが、OpenAIが開発中の次世代AIモデルが驚異的な性能を備えている可能性が濃厚となっています。 i heard o2 gets 105% on GPQA— Sam Altman (@sama) November 2, 2024 GPQAはAIの性能を測定するベンチマークの1種で、生物学・物理学・化学の専門家が作成した448問の選択問題で構成されています。GPQAの問題はかなりの高難度で、「専門家でない人間」がGoogle検索を駆使して挑んだ場合は34%、「博士号保持者または博士号の取得を目指す学生」の場合も65%のスコアしか獲得できません。 GPQAはすでに各種高性能AIのベンチマークとして利用されており、