06月
09日
苹果研究团队警示大型推理模型存在系统性逻辑缺陷
牛透社 2025 年 6 月 9 日消息,苹果研究团队发布重要研究警示,其主导的新研究揭示当前大型推理模型(LRM)在复杂逻辑任务中存在系统性缺陷。研究显示 Claude3.7Thinking、Deepseek-R1 等先进模型出现效率悖论、高复杂度塌缩及双模失效现象。
实验采用汉诺塔、跳棋逻辑推演等四大经典谜题测试基准,发现简单任务(Level 1-3)中标准 LLM 准确率提高 23%、推理标记减少 31%,而中级任务(Level 4-6)推理优化型模型仅提升 6.8%。复杂度达到 Level 7+ 时,模型准确率归零且路径生成能力完全丧失,其中 97% 案例出现推理中断,错误备选方案生成额外消耗 57% 计算资源。研究指出现有模型的思维链机制存在扩展性限制,需重构底层推理架构。