小米发布开源音频大模型 MiDashengLM - 7B，首响应延迟压缩 75%，横扫 22 项评测集

08月

04日

小米发布开源音频大模型 MiDashengLM – 7B，首响应延迟压缩 75%，横扫 22 项评测集

牛透社北京时间 2025 年 8 月 4 日消息，小米正式发布并全面开源 MiDashengLM – 7B 多模态大语言模型，该模型聚焦音频理解领域，采用双核协同架构，首响应延迟（TTFT）较行业标杆缩短 75%，数据吞吐效率提升 20 倍以上，在 22 个公开评测集获得最佳成绩。

技术亮点包括人声对话场景 95.7% 识别准确率、52 类环境音辨识与 14 种音乐流派分类能力，单样本首 Token 生成延迟压缩至 35 ms，模型体积减少 40%。开源策略提供完整模型权重与多源音频数据集，行业预测将推动语音交互市场增长 12%，形成百亿级听觉智能新业态。

新闻排行

热门新闻