05月

29日

  • Meta 与港中大联合发布 Multi-SpatialMLLM 模型,多模态 AI 空间理解能力提升 36%

    牛透社 5 月 29 日消息,全球科技巨头 Meta 与香港中文大学研究团队共同发布 Multi-SpatialMLLM 模型,该产品通过整合深度感知、视觉对应与动态感知三大技术模块,显著提升多模态大语言模型在复杂空间理解任务中的表现,主要应用于自动驾驶路径规划及工业机器人环境交互领域。

    该研究基于覆盖 2,700 万条高质量样本的 MultiSPA 数据集,融合三维数字孪生与四维全景标注数据。实验显示,模型在 MultiSPA 基准测试中平均性能提升 36%,定性任务准确率达 80 – 90%,在 BLINK 基准测试中准确率接近 90%,同时维持标准视觉问答测试的原有性能。

意见反馈
返回顶部