08月
07日
通义千问开源全球首款 20 亿参数多模态图像模型 Qwen-Image
牛透社 8 月 5 日消息,通义千问系列正式开源首个图像生成基础模型 Qwen-Image。该模型位 20 亿参数的多模态扩散变换器(MMDiT)模型,在复杂文本渲染和精确图像编辑上成果显著。
Qwen-Image 文本渲染能力强大,支持中英文多行布局、段落级生成与细粒度细节呈现,能高保真输出。如渲染宫崎骏风格动漫场景、中文对联等,文字清晰准确且融入书法效果。英文文本渲染同样出色,小或多的文字也能精准呈现。在图像编辑方面,通过增强多任务训练范式,支持风格迁移等操作,保持编辑一致性,降低创作门槛。
在 GenEval、DPG 等多个公开基准测试中,Qwen-Image 均取得最先进性能,中文文本渲染大幅领先现有先进模型。目前该模型已在魔搭社区、Hugging Face 及 GitHub 开源,用户可通过 QwenChat 体验。