05月

21日

  • DeepSeek 发布大模型训练优化技术论文,训练效率提升 3.2 倍

    牛透社 5 月 21 日消息,人工智能公司深度求索(DeepSeek)发布关于大模型端到端训练优化的突破性技术论文,阐述千亿参数大模型研发的技术革新。

    该研究通过软件架构、硬件配置及混合优化方案协同设计,实现 V3 模型训练效率较行业基准提升 3.2 倍,性能达顶尖闭源模型水平。核心创新包含多头潜在注意力机制(MLA)、FP8 混合精度框架、3D 混合并行架构及 IBGDA 通信优化技术。成果验证了开源大模型技术可行性,为全球 AI 社区提供工程范本。

意见反馈
返回顶部