米AppleのAI研究者らは6月8日(現地時間)、「The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」(思考の錯覚:問題の複雑さというレンズを通して推論モデルの長所と限界を理解する)という論文を発表した。 研究の結果、LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性があるとしている。 この研究では、既存の評価手法の限界を克服するため、新たなベンチマークや制御可能な環境を用いている。 LRMの推論メカニズムの分析には、従来のGSM8Kのような数学ベンチマークではなく、問題の複雑
