11月
04日
Grab 发布自研视觉大语言模型 突破东南亚多语种文档识别难题
牛透社 11 月 4 日消息,新加坡超级应用平台 Grab 发布自主研发的视觉大语言模型,该产品具备将图像编码为矢量数据的技术优势,主要应用于东南亚多语种证件信息识别场景。
Grab 是覆盖网约车、外卖、电商及金融服务的科技巨头,其业务涉及 8 个使用非拉丁文字的国家,长期面临异形文档信息抽取难题。该模型基于阿里巴巴云 Qwen2-VL2B 构建,采用双轨数据策略(Common Crawl 公共语料与合成文本图像)和低秩适配技术,在印度尼西亚证件识别测试中准确率超越传统 OCR 工具及通用大模型。