阿里巴巴开源音频生成模型 ThinkSound，革新音效创作 - 牛透社

07月

11日

阿里巴巴开源音频生成模型 ThinkSound，革新音效创作

牛透社 2025 年 7 月 10 日消息，阿里巴巴通义实验室正式开源多模态音频生成模型 ThinkSound，支持通过视频、文本或音频输入生成高保真音效，实现音画精准同步。

该模型采用链式推理（CoT）技术，可智能分析场景、动作及情感，生成自然的环境音、对话或特效声，大幅降低影视、游戏及短视频制作的音效成本。

ThinkSound 具备强大的多模态融合能力，兼容多种视频格式（如 MP4、4K），并支持语言指令编辑。其开源策略覆盖 Hugging Face、ModelScope 等平台，助力开发者灵活调用。

目前，该模型已应用于影视后期、游戏动态音效及虚拟角色语音合成，未来或拓展至实时生成与 3D 空间音频领域，推动 AIGC 音效技术普及。

新闻排行

热门新闻

零一万物把 Agent 带进了鸡舍

零一万物把 Agent 带进了鸡舍

2026-06-03

网易智企押注可靠 AI 员工

网易智企押注可靠 AI 员工

2026-06-03

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

引爆行业！EIOSpace登场企业 AI 从此进入新纪元

2026-06-01

导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

合作伙伴

快速导航

京ICP备17034123号-3Copyright © 崔牛会版权所有

关于我们加入我们联系我们

iTrust