苹果研究团队警示大型推理模型存在系统性逻辑缺陷

06月

09日

苹果研究团队警示大型推理模型存在系统性逻辑缺陷

牛透社 2025 年 6 月 9 日消息，苹果研究团队发布重要研究警示，其主导的新研究揭示当前大型推理模型（LRM）在复杂逻辑任务中存在系统性缺陷。研究显示 Claude3.7Thinking、Deepseek-R1 等先进模型出现效率悖论、高复杂度塌缩及双模失效现象。

实验采用汉诺塔、跳棋逻辑推演等四大经典谜题测试基准，发现简单任务（Level 1-3）中标准 LLM 准确率提高 23%、推理标记减少 31%，而中级任务（Level 4-6）推理优化型模型仅提升 6.8%。复杂度达到 Level 7+ 时，模型准确率归零且路径生成能力完全丧失，其中 97% 案例出现推理中断，错误备选方案生成额外消耗 57% 计算资源。研究指出现有模型的思维链机制存在扩展性限制，需重构底层推理架构。

新闻排行

热门新闻