腾讯混元开源 HunyuanVideo-Foley 模型，突破 AI 音视频同步技术瓶颈

08月

28日

腾讯混元开源 HunyuanVideo-Foley 模型，突破 AI 音视频同步技术瓶颈

牛透社 2025 年 8 月 28 日消息，腾讯混元发布端到端视频音效生成模型 HunyuanVideo-Foley，该产品具备通过视频与文字输入精准生成同步音效能力，主要应用于影视制作、短视频创作及游戏开发领域。

腾讯混元攻克音频生成技术三大挑战：1. 构建全球最大 TV2A 数据集实现全场景适配；2. 首创双流多模态扩散变换器架构解决声画失配问题；3. 创新 REPA 损失函数达成专业级音频保真。模型在权威测试中刷新纪录（音频质量 PQ↑6.59/视觉语义对齐 IB↑0.35/时序对齐 DeSync↓0.74）。

新闻排行

热门新闻