本記事では、OpenAIが開発した「機械学習タスクにおけるAIエージェントの能力を評価する新しいベンチマーク」MLE-benchを紹介します。実世界で必要とされる複雑で多岐にわたるスキルセットを総合的に評価することを目的としたデータセットです。 研究者らはこのベンチマークをどのように作成したのか、および現在の最先端モデルはどれほどの性能なのかをテストしました。 参照論文情報 タイトル:MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering 著者:Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, T