11月
05日
OSWorld 发布全球首个计算机代理产品评估基准 OSWorld-MCP,集成 158 款工具并开源技术方案
牛透社 2025 年 11 月 5 日消息,OSWorld 研究团队发布全球首个计算机代理产品系统化评估基准测试工具 OSWorld-MCP。该产品通过模型上下文协议(MCP)工具调用、图形用户界面(GUI)操作技能与决策能力三大维度构建评估框架,集成 158 款 MCP 工具(含 25 个专属压力测试工具),覆盖 LibreOffice 办公套件、VS Code 开发环境、Google Chrome 浏览器等核心应用场景。
基准测试包含 250 项工具适配性任务(69% 依赖 MCP 工具完成),数据显示,采用 MCP 的代理模型准确率显著提升:OpenAI 的 o3 模型任务准确率从 8.3% 跃升至 20.4%,Claude-4-Sonnet 模型工具调用率达 36.3%。研究团队同步开源技术文档及代码(项目资源详见 GitHub 平台),推动行业标准统一。业内专家指出,该工具填补了计算机代理产品系统性评测领域的空白。