多模态嵌入模型 VLM2Vec-V2 发布：统一图像、视频和视觉文档的检索任务 - 牛透社

使用已有账号登录

07月

29日

多模态嵌入模型 VLM2Vec-V2 发布：统一图像、视频和视觉文档的检索任务

牛透社 2025 年 7 月 28 日消息，Salesforce Research 等多所机构研究团队联合提出多模态嵌入学习框架 VLM2Vec-V2，旨在统一图像、视频和视觉文档的检索任务。

现有多模态嵌入模型因训练数据集局限于自然图像等，在实际任务中表现不佳。VLM2Vec-V2 扩展了 MMEB 数据集，新增多种任务类型，为多模态学习提供更丰富评估标准，且作为通用嵌入模型，支持多种输入形式。

该框架以 Qwen2-VL 为核心架构，其具备多项关键特性，还引入灵活数据采样管道提升对比学习稳定性。在 78 个数据集评估中，它以 58.0 的最高平均得分领先，虽在视觉文档检索略逊于 ColPali，但为多模态学习统一框架研究指明方向。

新闻排行

热门新闻

零一万物把 Agent 带进了鸡舍

零一万物把 Agent 带进了鸡舍

2026-06-03

网易智企押注可靠 AI 员工

网易智企押注可靠 AI 员工

2026-06-03

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

2026-06-01

导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

合作伙伴

快速导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

关于我们加入我们联系我们

iTrust