05月
20日
麻省理工等机构发布 Omni-R1 音频问答模型,MMAU 基准准确率达 71.3% 创三项纪录
牛透社 5 月 20 日消息,麻省理工学院 CSAIL 实验室联合德国哥廷根大学、IBM 研究院等机构的研究团队推出突破性音频问答模型 Omni-R1。该模型基于 Qwen2.5-Omni 架构,通过组相对策略优化(GRPO)算法实现跨模态理解优化,在声音事件识别、语音解析及音乐理解领域刷新性能纪录。
Omni-R1 在 MMAU 多模态评估基准中以 71.3% 的平均准确率全面超越基线模型,其中文本微调贡献率达 48.7%。技术亮点包括 48GB 显存 GPU 的高效部署、基于 ChatGPT 生成的 AVQA-GPT 和 VGGS-GPT 双训练集,以及首创的分组奖励机制。研究团队承诺将开源全部技术资源。