09月

25日

  • Meta 发布智能体研究环境 ARE 及 Gaia 2 基准模型,突破真实场景评估瓶颈

    牛透社 9 月 25 日消息,Meta 研究院发布智能体研究环境(Agents Research Environment, ARE)及内置基准模型 Gaia 2,该平台具备运行流程编排、创建多样化环境、连接真实应用三大核心功能,主要应用于智能体开发与真实场景性能评估。

    Gaia 2 基准测试采用动态条件响应、时间敏感性等四项创新维度,并在移动环境下完成 1120 项任务验证,OpenAI 的 GPT-5 目前排名榜首。相较于 Yourbench、MCPEval 等竞品,Gaia 2 专注于环境适应性与噪声干扰应对能力验证。

意见反馈
返回顶部