面壁智能联合清华发布 5 亿参数语音模型 VoxCPM，零样本克隆技术达顶尖水平

09月

19日

面壁智能联合清华发布 5 亿参数语音模型 VoxCPM，零样本克隆技术达顶尖水平

牛透社 9 月 19 日消息，面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）联合发布新型语音生成模型 VoxCPM，该模型仅含 5 亿参数，支持零样本声音克隆技术，在自然度、音色相似度及韵律表现力等核心指标达行业顶尖水平。

VoxCPM 在 Seed-TTS-EVAL 评测中词错误率与音色相似度误差率表现优异，基于 NVIDIA RTX 4090 显卡实现实时因子≈0.17，已在 GitHub、Hugging Face 等平台开源。其智能解析文本语义并适配发声方式、地域腔调和情感韵律，可应用于个性化语音助手、游戏角色配音及气象播报等场景。

新闻排行

热门新闻