Claude Opus 4.5 在 METR 基准测试中实现长达近 5 小时的复杂任务处理能力 - 牛透社

使用已有账号登录

12月

22日

Claude Opus 4.5 在 METR 基准测试中实现长达近 5 小时的复杂任务处理能力

牛透社 12 月 22 日消息，人工智能研究机构 METR 发布基准测试报告，显示 Anthropic 旗下顶级模型 Claude Opus 4.5 在处理超长时间任务方面展现出统治级实力。

测试数据显示，在维持 50% 成功率的前提下，Claude Opus 4.5 能够持续处理长达 4 小时 49 分钟的复杂任务，刷新行业纪录。该突破标志着 AI 正从“短指令回复者”向“长程项目执行者”转型。

新闻排行

热门新闻

零一万物把 Agent 带进了鸡舍

零一万物把 Agent 带进了鸡舍

2026-06-03

网易智企押注可靠 AI 员工

网易智企押注可靠 AI 员工

2026-06-03

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

2026-06-01

导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

合作伙伴

快速导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

关于我们加入我们联系我们

iTrust