06月
16日
Inclusion AI 与蚂蚁集团发布开源多模态模型 Ming-Omni,支持跨模态生成与方言交互
牛透社 2025 年 6 月 16 日消息,Inclusion AI 与蚂蚁集团发布 Ming-Omni 多模态模型,该产品具备跨模态同步处理(图像、文本、音频及视频)、高自然度语音合成、精细化图像生成及方言语义理解与方言交互能力,并采用混合专家架构(MoE)与模态特异性路由机制实现多模态深度融合。
作为业界首个开源且模态支持比肩 GPT-4o 的多模态模型,Ming-Omni 集成先进音频解码器与定制化 Ming-Lite-Uni 生成引擎,支持上下文感知对话、文本转语音(TTS)及多样式图像编辑,其底层代码与模型权重参数已完整公开,推动跨模态 AI 在垂直领域的应用落地。