07月
13日
中科院计算所发布 Stream-Omni 多模态大模型,实现实时处理效率提升 40%
牛透社 7 月 7 日消息,中国科学院计算技术研究所自然语言处理团队发布名为 Stream-Omni 的文本 – 视觉 – 语音多模态大模型,该产品基于 GPT-4o 架构开发,首次实现多模态实时并行处理与灵活组合交互,通过独创的层次化模态对齐框架将三模态对齐数据量降低 60%,语音交互响应速度较现有技术提升 40%,并在嘈杂环境下实现 2.3%(SOTA 水平)的语音 – 文本对齐误差,主要应用于智能制造、无障碍交互及元宇宙等场景。