07月

04日

  • Step-Audio 团队开源端到端语音大模型 Step-Audio-AQAA

    牛透社 7 月 4 日消息,Step-Audio 团队开源全新端到端语音大模型 Step-Audio-AQAA,该模型打破传统局限,能直接依据原始音频输入,生成自然流畅语音。

    其架构由三大核心模块构成:双码本音频标记器精准提取语音的语言结构与情感信息;1300 亿参数的 Step-Omni 多模态骨干 LLM,高效处理标记、深入理解语义;U-Net 架构神经声码器则负责合成高质量语音波形。

    Step-Audio-AQAA 的开源,为研究者提供强大工具,也为智能语音应用开拓广阔前景,助力人机音频交互实现质的飞跃。

意见反馈
返回顶部