12月

22日

  • Claude Opus 4.5 在 METR 基准测试中实现长达近 5 小时的复杂任务处理能力

    牛透社 12 月 22 日消息,人工智能研究机构 METR 发布基准测试报告,显示 Anthropic 旗下顶级模型 Claude Opus 4.5 在处理超长时间任务方面展现出统治级实力。

    测试数据显示,在维持 50% 成功率的前提下,Claude Opus 4.5 能够持续处理长达 4 小时 49 分钟的复杂任务,刷新行业纪录。该突破标志着 AI 正从“短指令回复者”向“长程项目执行者”转型。

意见反馈
返回顶部