Stability AI 联合 Arm 发布移动端优化音频生成模型，7 秒生成 11 秒立体声 - 牛透社

使用已有账号登录

05月

19日

Stability AI 联合 Arm 发布移动端优化音频生成模型，7 秒生成 11 秒立体声

牛透社 2025 年 5 月 19 日消息，Stability AI 与 Arm 联合推出紧凑型文本转音频模型「稳定音频开放小型」（Stable Audio Open Small），该模型可在约 7 秒内生成最长 11 秒的高质量立体声音频片段，参数规模精简至 3.41 亿，适配消费级硬件平台。

模型基于加州大学伯克利分校「对抗相对对比」（ARC）算法框架重构，包含音频数据压缩系统、文本语义解析模块和音频生成系统三大组件，支持 44kHz 立体声音频合成。其训练数据采用 Freesound 数据库约 47.2 万个符合知识共享协议的音频片段，主要面向音效合成与现场录音模拟场景，暂不支持音乐生成与人声处理，且仅限英语文本输入。

新闻排行

热门新闻

导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

合作伙伴

快速导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

关于我们加入我们联系我们

iTrust