AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。 Getting 50% (SoTA) on ARC-AGI with GPT-4o https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。 上記の問題はシンプルなため特
![GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新](https://cdn-ak-scissors.b.st-hatena.com/image/square/e4cfcf91cd75a8ab7824703a510ecda57704c6fb/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F06%2F18%2Fgpt-4o-arc-agi%2F00.png)