普林斯顿大学、字节跳动等联合发布多模态大模型 MMaDA，综合表现超 GPT-4 等标杆

05月

22日

普林斯顿大学、字节跳动等联合发布多模态大模型 MMaDA，综合表现超 GPT-4 等标杆

牛透社 5 月 22 日消息，普林斯顿大学、字节跳动、清华大学和北京大学的科研团队联合发布多模态大模型 MMaDA，该产品具备“深度思考”能力，能在文本、图像及复杂推理任务间无缝切换，采用统一扩散架构、混合长链式思考（Mixed Long CoT）微调和 UniGRPO 强化学习算法三大核心技术。

MMaDA-8B 模型在文本推理中超越 LLAMA-3-7B 和 Qwen2-7B，多模态理解优于 Show-o 和 SEED-X，文生图质量超越 SDXL 和 Janus。其技术方案通过离散 token 化策略和三阶训练体系，探索了扩散模型作为通用基座的可行性，标志多模态 AI 进入新纪元。

新闻排行

热门新闻