11月
25日
AiOla 发布全球首款流匹配语音模型 Drax,突破嘈杂环境识别瓶颈
牛透社 11 月 6 日消息,语音技术供应商 AiOla(以色列语音 AI 实验室)发布开源语音模型 Drax,该产品成为首个将流匹配技术(原用于图像模型)引入语音识别的创新实践,主要应用于嘈杂环境下的语音重构及方言识别场景。
Drax 通过三阶段处理流程提升识别效果:首阶段消除环境噪音,中间阶段解析语音模式特征,最终实现语音完整构建。其流匹配技术支持并行生成多候选句,较传统模型提速显著,并可针对性训练方言口音模块(传统模型需 6 万小时全局数据训练),通过“插件式”更新避免性能退化。当前模型仅开放转录功能,限制生成能力以降低滥用风险。