09月
19日
小米开源语音大模型 MiMo-Audio-7B,音频评测超越 Google Gemini 与 OpenAI GPT-4o
牛透社 2025 年 9 月 19 日消息,小米公司发布首个原生端到端语音大模型 Xiaomi – MiMo – Audio,该模型基于超 1 亿小时训练数据与创新预训练架构,首次在语音领域实现基于情境学习的少样本泛化能力。
Xiaomi – MiMo – Audio 在音频理解基准 MMAU 中超越 Google Gemini – 2.5 – Flash,在音频推理基准 Big Bench Audio S2T 中超越 OpenAI GPT – 4o – Audio – Preview。模型开源内容包含 70 亿参数基础模型 MiMo – Audio – 7B – Base、指令微调模型及支持双任务的 12 亿参数 Transformer Tokenizer,技术资料已在 GitHub 与 Hugging Face 平台开放。