10月
27日
蚂蚁百灵开源高效推理模型 Ring-mini-sparse-2.0-exp,长序列任务吞吐量提升三倍
牛透社 10 月 27 日消息,蚂蚁百灵大模型团队发布全新高效推理模型 Ring-mini-sparse-2.0-exp,该产品将高稀疏比的 Mixture of Expert(MoE)结构与稀疏注意力机制有机结合,主要应用于复杂长序列解码场景。
新模型在处理长序列时吞吐量较前代提升近三倍,在多项高难度推理基准测试中保持 SOTA 性能。技术亮点包含通过 Top-k 块选择减少计算开销,以及与分组查询注意力(GQA)结合降低 I/O 资源消耗。