蚂蚁集团旗下Inclusion AI发布大模型评估框架「竞技场」推动AI测评转向应用价值导向

08月

20日

蚂蚁集团旗下Inclusion AI发布大模型评估框架「竞技场」推动AI测评转向应用价值导向

牛透社 8 月 19 日消息，蚂蚁集团旗下研究机构 Inclusion AI 发布大模型评估框架「竞技场」（Inclusion Arena），该产品通过真实场景的多轮人机对话构建动态评估体系，主要应用于企业级 AI 选型市场。

框架基于超 50 万组模型对比数据分析，集成于社交平台「趣境」（Joyland）和教育协作系统「教辅盒」（T-Box），通过用户隐式选择生成动态排行榜。Anthropic 的 Claude 3.7 Sonnet 与深度求索（DeepSeek）的 v3-0324 模型在截至 2025 年 7 月的测试中表现突出。技术负责人指出其评估数据更贴合金融风控场景需求，标志着 AI 评估体系从实验室指标转向应用价值导向。

新闻排行

热门新闻