Meta 与港中大联合发布 Multi-SpatialMLLM 模型，多模态 AI 空间理解能力提升 36%

05月

29日

Meta 与港中大联合发布 Multi-SpatialMLLM 模型，多模态 AI 空间理解能力提升 36%

牛透社 5 月 29 日消息，全球科技巨头 Meta 与香港中文大学研究团队共同发布 Multi-SpatialMLLM 模型，该产品通过整合深度感知、视觉对应与动态感知三大技术模块，显著提升多模态大语言模型在复杂空间理解任务中的表现，主要应用于自动驾驶路径规划及工业机器人环境交互领域。

该研究基于覆盖 2,700 万条高质量样本的 MultiSPA 数据集，融合三维数字孪生与四维全景标注数据。实验显示，模型在 MultiSPA 基准测试中平均性能提升 36%，定性任务准确率达 80 – 90%，在 BLINK 基准测试中准确率接近 90%，同时维持标准视觉问答测试的原有性能。

新闻排行