08月
20日
蚂蚁集团旗下Inclusion AI发布大模型评估框架「竞技场」 推动AI测评转向应用价值导向
牛透社 8 月 19 日消息,蚂蚁集团旗下研究机构 Inclusion AI 发布大模型评估框架「竞技场」(Inclusion Arena),该产品通过真实场景的多轮人机对话构建动态评估体系,主要应用于企业级 AI 选型市场。
框架基于超 50 万组模型对比数据分析,集成于社交平台「趣境」(Joyland)和教育协作系统「教辅盒」(T-Box),通过用户隐式选择生成动态排行榜。Anthropic 的 Claude 3.7 Sonnet 与深度求索(DeepSeek)的 v3-0324 模型在截至 2025 年 7 月的测试中表现突出。技术负责人指出其评估数据更贴合金融风控场景需求,标志着 AI 评估体系从实验室指标转向应用价值导向。