point2000のブックマーク / 2025年1月24日 - はてなブックマーク

point2000 id:point2000

2025年1月24日のブックマーク (1件)

これまでで最も難しいAIテスト「人類最後の試験」リリース、3000の多肢選択問題と短答式の質問で構成
AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10％を超えるモデルは存在しなかったとのことです。 Scale AI and CAIS Unveil Results of Humanity’s Last Exam https://scale.com/blog/humanitys-last-exam-results Humanity's Last Exam - Publication Ready Humanity's Last Exam.pdf (PDFファイル)https://static.scale.com/uploads/654197dc94d34f66c0f5184
point2000 2025/01/24
「採用された問題はどれも大学院試験で出題される範囲のものでした」そこまですごいとまず生身の人間がどれだけ解けるのかが気になるな
リンク
- 2025年1月26日
- 2025年1月24日
- 2025年1月19日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx