小米开源语音大模型 MiMo-Audio-7B，音频评测超越 Google Gemini 与 OpenAI GPT-4o

09月

19日

小米开源语音大模型 MiMo-Audio-7B，音频评测超越 Google Gemini 与 OpenAI GPT-4o

牛透社 2025 年 9 月 19 日消息，小米公司发布首个原生端到端语音大模型 Xiaomi – MiMo – Audio，该模型基于超 1 亿小时训练数据与创新预训练架构，首次在语音领域实现基于情境学习的少样本泛化能力。

Xiaomi – MiMo – Audio 在音频理解基准 MMAU 中超越 Google Gemini – 2.5 – Flash，在音频推理基准 Big Bench Audio S2T 中超越 OpenAI GPT – 4o – Audio – Preview。模型开源内容包含 70 亿参数基础模型 MiMo – Audio – 7B – Base、指令微调模型及支持双任务的 12 亿参数 Transformer Tokenizer，技术资料已在 GitHub 与 Hugging Face 平台开放。

新闻排行

热门新闻