10月
04日
华为发布开源大模型压缩技术 SINQ,内存效率提升 70% 支持消费级显卡部署
牛透社 10 月 3 日消息,华为苏黎世实验室发布大模型压缩技术 SINQ,该技术可实现 60% – 70% 内存节约并支持单卡运行千亿参数模型。
SINQ 技术通过 Apache 2.0 协议开源发布,突破性实现显存需求从 60GB 降至 20GB,使 RTX 4090 消费级显卡替代专业级 A100/H100 成为可能。云端实例费用可压缩至每小时 1 – 1.5 美元,长期推理任务成本节约达数千美元。其双轴缩放技术和 Sinkhorn-Knopp 归一化方案显著降低参数畸变率,量化速度较 HQQ 提升 2 倍、对比 AWQ 加速超 30 倍,并提供预量化模型库与 lm-eval 集成工具。