12月
10日
Databricks发布OfficeQA基准评估AI企业文档处理能力
牛透社 2025 年 12 月 10 日消息,Databricks 发布 OfficeQA 基准,该产品具备评估 AI 系统在庞大、杂乱真实世界语料库中进行检索、解析和基于文档推理的能力,主要应用于企业级文档密集型任务。
该基准基于跨越 80 多年的美国财政部公报构建,语料库含约 89,000 页数据,包含 246 个问题,分简单和困难层级。测试中前沿 AI 模型在完整数据集上正确率最高为 43.1%,在困难子集(113 例)上为 24.8%;使用 Databricks 解析系统预处理后性能跃升 32.4 个百分点。