05月
19日
Stability AI 联合 Arm 发布移动端优化音频生成模型,7 秒生成 11 秒立体声
牛透社 2025 年 5 月 19 日消息,Stability AI 与 Arm 联合推出紧凑型文本转音频模型「稳定音频开放小型」(Stable Audio Open Small),该模型可在约 7 秒内生成最长 11 秒的高质量立体声音频片段,参数规模精简至 3.41 亿,适配消费级硬件平台。
模型基于加州大学伯克利分校「对抗相对对比」(ARC)算法框架重构,包含音频数据压缩系统、文本语义解析模块和音频生成系统三大组件,支持 44kHz 立体声音频合成。其训练数据采用 Freesound 数据库约 47.2 万个符合知识共享协议的音频片段,主要面向音效合成与现场录音模拟场景,暂不支持音乐生成与人声处理,且仅限英语文本输入。