12月
11日
谷歌与Kaggle发布FACTS基准套件,AI模型事实准确性最高未超70%
牛透社 2025 年 12 月 11 日消息,谷歌 FACTS 团队与数据科学部门 Kaggle 发布 FACTS 基准套件,该产品提供全面的 AI 事实准确性评估框架,主要应用于法律、金融和医疗等对准确性要求高的行业。
基准套件涵盖上下文事实性和世界知识事实性测试,初步结果显示 Gemini 3 Pro、GPT-5 和 Claude 4.5 Opus 等模型综合准确率均未超过 70%,其中 Gemini 3 Pro 以 68.8% 领先,搜索任务达 83.8%,但多模态任务表现最低。