Step-Audio 团队开源端到端语音大模型 Step-Audio-AQAA - 牛透社

使用已有账号登录

07月

04日

Step-Audio 团队开源端到端语音大模型 Step-Audio-AQAA

牛透社 7 月 4 日消息，Step-Audio 团队开源全新端到端语音大模型 Step-Audio-AQAA，该模型打破传统局限，能直接依据原始音频输入，生成自然流畅语音。

其架构由三大核心模块构成：双码本音频标记器精准提取语音的语言结构与情感信息；1300 亿参数的 Step-Omni 多模态骨干 LLM，高效处理标记、深入理解语义；U-Net 架构神经声码器则负责合成高质量语音波形。

Step-Audio-AQAA 的开源，为研究者提供强大工具，也为智能语音应用开拓广阔前景，助力人机音频交互实现质的飞跃。

新闻排行

热门新闻

零一万物把 Agent 带进了鸡舍

零一万物把 Agent 带进了鸡舍

2026-06-03

网易智企押注可靠 AI 员工

网易智企押注可靠 AI 员工

2026-06-03

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

2026-06-01

导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

合作伙伴

快速导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

关于我们加入我们联系我们

iTrust