07月

29日

  • 多模态嵌入模型 VLM2Vec-V2 发布:统一图像、视频和视觉文档的检索任务

    牛透社 2025 年 7 月 28 日消息,Salesforce Research 等多所机构研究团队联合提出多模态嵌入学习框架 VLM2Vec-V2,旨在统一图像、视频和视觉文档的检索任务。

    现有多模态嵌入模型因训练数据集局限于自然图像等,在实际任务中表现不佳。VLM2Vec-V2 扩展了 MMEB 数据集,新增多种任务类型,为多模态学习提供更丰富评估标准,且作为通用嵌入模型,支持多种输入形式。

    该框架以 Qwen2-VL 为核心架构,其具备多项关键特性,还引入灵活数据采样管道提升对比学习稳定性。在 78 个数据集评估中,它以 58.0 的最高平均得分领先,虽在视觉文档检索略逊于 ColPali,但为多模态学习统一框架研究指明方向。

意见反馈
返回顶部