07月
11日
阿里巴巴开源音频生成模型 ThinkSound,革新音效创作
牛透社 2025 年 7 月 10 日消息,阿里巴巴通义实验室正式开源多模态音频生成模型 ThinkSound,支持通过视频、文本或音频输入生成高保真音效,实现音画精准同步。
该模型采用链式推理(CoT)技术,可智能分析场景、动作及情感,生成自然的环境音、对话或特效声,大幅降低影视、游戏及短视频制作的音效成本。
ThinkSound 具备强大的多模态融合能力,兼容多种视频格式(如 MP4、4K),并支持语言指令编辑。其开源策略覆盖 Hugging Face、ModelScope 等平台,助力开发者灵活调用。
目前,该模型已应用于影视后期、游戏动态音效及虚拟角色语音合成,未来或拓展至实时生成与 3D 空间音频领域,推动 AIGC 音效技术普及。