05月
27日
法国 AI 研究机构 Kyutai 发布语音交互系统 Unmute,支持 10 秒声纹克隆与 500 毫秒低延迟
牛透社 5 月 27 日消息,法国人工智能研究机构 Kyutai 发布语音交互系统 Unmute,该产品具备智能话轮转换(响应误差 200 毫秒)、实时打断机制、流式内容生成(端到端延迟低于 500 毫秒)与 10 秒声纹建模能力,主要应用于语音对话场景。
Kyutai 为专注于语音技术的 AI 研究机构,其模块化架构通过 API 接口将语音输入(STT)与输出(TTS)能力集成至文本大语言模型,并宣布未来数周内将开源核心模型及工具链。技术参数来自 Kyutai 官方白皮书,实测数据可能因硬件配置存在差异。