07月
01日
TEN Agent 开源语音检测与对话管理组件,低延迟技术突破驱动多模态 AI 生态
牛透社 7 月 1 日消息,TEN Agent 团队宣布正式开源其核心组件 TEN 语音活动检测(VAD)与 TEN 对话轮次检测(Turn Detection)。
TEN VAD 作为企业级低延迟语音检测引擎,较 Silero VAD 降低逾 30% 语音静默转换延迟,实时因子(RTF)在主流 CPU 平台均低于 0.01,支持 200 ms 级语音停顿捕捉。TEN 对话轮次检测基于 Qwen2.5 – 7B 大模型开发,通过语义理解实现误触发率降低 58%,支持 8 种方言的跨语言话轮管理。
该技术已应用于银行智能外呼、远程会议系统,其开源代码库在 GitHub 获 5.3k Star 及 327 位开发者优化提交。