06月
14日
苹果机器学习论文揭示推理模型天花板,Open Philanthropy 联合 Claude 提出测评范式质疑
牛透社 6 月 13 日消息,苹果机器学习团队发布 53 页论文《思考的幻象》,指出以 OpenAI 的“o”系列和谷歌 Gemini-2.5 Pro/Flash 为代表的推理型大语言模型(LRMs)在任务复杂度突破临界值时推理能力骤降,暗示当前架构无法实现人工通用智能(AGI)。
非营利机构 Open Philanthropy 技术撰稿人 Alex Lawsen 与 Claude Opus 4 模型合作的反驳论文《「思考幻象」的幻象》登陆 arXiv 预印本平台,该研究通过允许模型使用 Lua 函数替代逐步叙述,使解题成功率显著回升。学界围绕模型架构局限性与测试方法缺陷展开激辩。