06月

24日

  • 微软发布 3.3 亿参数小模型 Mu,性能比肩 Phi-3.5-mini,赋能 Windows 智能体

    牛透社 6 月 24 日消息,微软发布其最新创新小参数模型 Mu,该产品具备 3.3 亿参数(体积仅为 Phi-3.5-mini 的十分之一)、离线 NPU 笔记本电脑每秒生成超 100 标记、训练规模扩大到 360 万个样本(提升 1300 倍),主要应用于 Windows 系统智能代理的自然语言指令交互场景。

    该模型基于纯解码器 Transformer 架构实现三大突破:双重层归一化提升训练稳定性、旋转位置嵌入增强超长序列外推能力、分组查询注意力机制降低内存占用。

    此外,Mu 模型还采用了预热稳定衰减时间表和 Muon 优化器等先进训练技术来进一步优化性能。微软使用 A100GPU 对 Mu 进行训练,遵循 Phi 模型开发中首创的技术,首先在数百亿个高质量教育 token 上进行预训练,以学习语言的语法、语义和世界知识。

意见反馈
返回顶部