阶跃星辰发布开源语音大模型 Step - Audio2mini，斩获多模态理解/翻译/识别三项 SOTA

09月

01日

阶跃星辰发布开源语音大模型 Step – Audio2mini，斩获多模态理解/翻译/识别三项 SOTA

牛透社 9 月 1 日消息，阶跃星辰发布最新开源端到端语音大模型 Step – Audio2mini，该产品具备首创的“音频推理 – 生成统一建模”架构，主要应用于语音识别、跨语言翻译及情感解析等场景。

在 MMAU 多模态音频理解测试集以 73.2 分稳居开源模型榜首，中英互译任务 CoVoST2（39.3 分）和 CVSS（29.1 分）均超越 GPT – 4o Audio，语音识别中文 CER（3.19%）和英文 WER（3.50%）较同类模型平均提升超 15 个百分点。通过端到端架构和链式思维推理技术实现拟人化反应，并首次接入联网搜索能力缓解“幻觉问题”。

新闻排行

热门新闻