10月

21日

  • 深度求索发布 DeepSeek-OCR 视觉语言模型,字符识别准确率达 97% 支持 20 倍压缩

    牛透社 10 月 21 日消息,人工智能技术企业深度求索(DeepSeek)发布创新光学字符识别解决方案 DeepSeek-OCR 视觉语言模型。该产品通过革命性视觉标记压缩技术将长文本信息量缩减后仍保持卓越解析能力,在 Fox 标准化测试中达到 97% 的字符识别准确率,并在 20 倍超压缩场景下维持实用解析效能。

    该系统采用端到端架构,视觉编码单元(DeepEncoder)整合 SAM-based 局部感知窗注意力机制与卷积压缩算法,高分辨率输入场景下显存占用量较传统方案降低。混合专家解码单元(DeepSeek3B-MoE-A570M)总参数达 30 亿,支持金融票据、科研文献等复杂场景的智能解析。其创新模式适配系统具备动态分配视觉标记的 Gundam 智能模式,在 OmniDocBench 多模态基准测试中以极低标记消耗达成业界领先表现。

意见反馈
返回顶部