08月

04日

  • 小米发布开源音频大模型 MiDashengLM – 7B,首响应延迟压缩 75%,横扫 22 项评测集

    牛透社北京时间 2025 年 8 月 4 日消息,小米正式发布并全面开源 MiDashengLM – 7B 多模态大语言模型,该模型聚焦音频理解领域,采用双核协同架构,首响应延迟(TTFT)较行业标杆缩短 75%,数据吞吐效率提升 20 倍以上,在 22 个公开评测集获得最佳成绩。

    技术亮点包括人声对话场景 95.7% 识别准确率、52 类环境音辨识与 14 种音乐流派分类能力,单样本首 Token 生成延迟压缩至 35 ms,模型体积减少 40%。开源策略提供完整模型权重与多源音频数据集,行业预测将推动语音交互市场增长 12%,形成百亿级听觉智能新业态。

意见反馈
返回顶部