AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10%を超えるモデルは存在しなかったとのことです。 Scale AI and CAIS Unveil Results of Humanity’s Last Exam https://scale.com/blog/humanitys-last-exam-results Humanity's Last Exam - Publication Ready Humanity's Last Exam.pdf (PDFファイル)https://static.scale.com/uploads/654197dc94d34f66c0f5184

