AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。 Getting 50% (SoTA) on ARC-AGI with GPT-4o https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。 上記の問題はシンプルなため特
