09月

23日

  • 阿里云推出全球首个端到端全模态 AI 模型 Qwen3-Omni,22 项音视频指标刷新纪录

    牛透社 2025 年 9 月 23 日消息,阿里云发布全球首个原生端到端全模态人工智能模型 Qwen3-Omni,该模型已在 GitHub 和 Hugging Face 平台开放源码。

    Qwen3-Omni 支持文本、图像、音频、视频多模态数据的实时流式处理,响应速度达亚秒级。其在 36 项音视频基准测试中刷新 22 项指标纪录,语音识别能力与 Gemini 2.5 Pro 持平,支持 119 种文本语言,19 种语音输入及10 种语音输出。通过 MoE 架构与自研 AuT 预训练技术,模型实现音视频交互延迟低至 130ms。

    同步推出的 Qwen3-TTS 模型提供 17 种专业音色,语音稳定性及音色相似度超越竞品。多图编辑工具 Qwen-Image-Edit-2509 支持多图拼接,CIDEr 评分大幅提升。

意见反馈
返回顶部