05月
22日
普林斯顿大学、字节跳动等联合发布多模态大模型 MMaDA,综合表现超 GPT-4 等标杆
牛透社 5 月 22 日消息,普林斯顿大学、字节跳动、清华大学和北京大学的科研团队联合发布多模态大模型 MMaDA,该产品具备“深度思考”能力,能在文本、图像及复杂推理任务间无缝切换,采用统一扩散架构、混合长链式思考(Mixed Long CoT)微调和 UniGRPO 强化学习算法三大核心技术。
MMaDA-8B 模型在文本推理中超越 LLAMA-3-7B 和 Qwen2-7B,多模态理解优于 Show-o 和 SEED-X,文生图质量超越 SDXL 和 Janus。其技术方案通过离散 token 化策略和三阶训练体系,探索了扩散模型作为通用基座的可行性,标志多模态 AI 进入新纪元。