05月
23日
AI 数学推理短板暴露:FrontierMath 测试解决率不足 2%,专家发布基准评估新五大原则
牛透社美东时间 5 月 22 日消息,苹果研究团队发布 AI 基准测试研究成果,揭示传统数学推理评估体系存在局限性。
研究显示,GSM – Symbolic 基准测试中,题目数值或名称改动会导致模型性能显著下降;UTMath 基准测试中最佳模型仅能解决约三分之一案例,FrontierMath 基准测试当前 AI 解决率不足 2%。
Yip博士提出构建新型基准测试的五大原则:过程导向评分、自适应对抗提示、跨领域测试套件、专家介入验证、动态演进机制。现有基准测试揭示的是模仿而非真正智能,应将人类教育原理融入AI评估,推动AI实现真正的智能革命,下一代AI的价值评判标准应是应对新问题的能力。