07月
20日
谷歌 DeepMind 发布革命性 MoR 架构
牛透社 7 月 17 日消息,谷歌 DeepMind 发布混合递归架构 MoR,该产品具备动态计算资源分配与智能缓存体系,主要应用于降低大型语言模型部署成本及提升推理效率。
技术指标显示:内存带宽压力降低 45%、推理吞吐量提升 3 倍、参数量削减 68%;实证表现为推理速度加快 220%、训练 token 处理量增加 1.7 倍;在 3.6 亿参数规模下实现 GPU 内存利用率 92%。该架构通过 768 亿 token 预训练验证,使部署成本降低 75%。