10月

17日

  • 开源社区推出 LLaVA-OneVision-1.5 多模态模型,27 项基准测试超越行业对标

    牛透社 10 月 17 日消息,开源社区发布 LLaVA-OneVision-1.5 多模态模型,该模型具备支持图像、视频多元输入、11:1 数据压缩比及 3.7 天高效训练周期等技术优势,主要应用于视觉语言模型开发领域。

    作为 LLaVA 系列迭代两年的成果,其 80 亿参数版本在 8500 万训练样本上完成三阶段训练,覆盖 27 项基准测试并超越 Qwen2.5-VL 模型性能。技术亮点包括整合 RICE-ViT 视觉编码器强化文字处理能力,首创”概念均衡”数据采样策略。

意见反馈
返回顶部