08月
28日
腾讯混元开源 HunyuanVideo-Foley 模型,突破 AI 音视频同步技术瓶颈
牛透社 2025 年 8 月 28 日消息,腾讯混元发布端到端视频音效生成模型 HunyuanVideo-Foley,该产品具备通过视频与文字输入精准生成同步音效能力,主要应用于影视制作、短视频创作及游戏开发领域。
腾讯混元攻克音频生成技术三大挑战:1. 构建全球最大 TV2A 数据集实现全场景适配;2. 首创双流多模态扩散变换器架构解决声画失配问题;3. 创新 REPA 损失函数达成专业级音频保真。模型在权威测试中刷新纪录(音频质量 PQ↑6.59/视觉语义对齐 IB↑0.35/时序对齐 DeSync↓0.74)。