苹果机器学习论文揭示推理模型天花板，Open Philanthropy 联合 Claude 提出测评范式质疑

06月

14日

苹果机器学习论文揭示推理模型天花板，Open Philanthropy 联合 Claude 提出测评范式质疑

牛透社 6 月 13 日消息，苹果机器学习团队发布 53 页论文《思考的幻象》，指出以 OpenAI 的“o”系列和谷歌 Gemini-2.5 Pro/Flash 为代表的推理型大语言模型（LRMs）在任务复杂度突破临界值时推理能力骤降，暗示当前架构无法实现人工通用智能（AGI）。

非营利机构 Open Philanthropy 技术撰稿人 Alex Lawsen 与 Claude Opus 4 模型合作的反驳论文《「思考幻象」的幻象》登陆 arXiv 预印本平台，该研究通过允许模型使用 Lua 函数替代逐步叙述，使解题成功率显著回升。学界围绕模型架构局限性与测试方法缺陷展开激辩。

新闻排行

热门新闻