05月
06日
DeepSeek发布Prover-V2模型,参数规模达6710亿
4 月 30 日,深度求索(DeepSeek)发布 DeepSeek-Prover-V2-671B 模型,该模型参数规模达 6710 亿,采用更高效的 safetensors 文件格式并支持多精度计算模式,主要应用于复杂数学证明场景。
技术架构方面,该模型基于 DeepSeek-V3 框架打造,采用混合专家(MoE)模式构建,包含 61 层 Transformer 网络结构,隐藏层维度达 7168,最大位置嵌入扩展至 163840,并引入 FP8 量化技术实现体积压缩与推理效率提升。此次发布的 V2 版本为 Prover-V1.5 数学模型的升级迭代。