09月
01日
阶跃星辰发布开源语音大模型 Step – Audio2mini,斩获多模态理解/翻译/识别三项 SOTA
牛透社 9 月 1 日消息,阶跃星辰发布最新开源端到端语音大模型 Step – Audio2mini,该产品具备首创的“音频推理 – 生成统一建模”架构,主要应用于语音识别、跨语言翻译及情感解析等场景。
在 MMAU 多模态音频理解测试集以 73.2 分稳居开源模型榜首,中英互译任务 CoVoST2(39.3 分)和 CVSS(29.1 分)均超越 GPT – 4o Audio,语音识别中文 CER(3.19%)和英文 WER(3.50%)较同类模型平均提升超 15 个百分点。通过端到端架构和链式思维推理技术实现拟人化反应,并首次接入联网搜索能力缓解“幻觉问题”。