华为发布开源大模型压缩技术 SINQ，内存效率提升 70% 支持消费级显卡部署

10月

04日

华为发布开源大模型压缩技术 SINQ，内存效率提升 70% 支持消费级显卡部署

牛透社 10 月 3 日消息，华为苏黎世实验室发布大模型压缩技术 SINQ，该技术可实现 60% – 70% 内存节约并支持单卡运行千亿参数模型。

SINQ 技术通过 Apache 2.0 协议开源发布，突破性实现显存需求从 60GB 降至 20GB，使 RTX 4090 消费级显卡替代专业级 A100/H100 成为可能。云端实例费用可压缩至每小时 1 – 1.5 美元，长期推理任务成本节约达数千美元。其双轴缩放技术和 Sinkhorn-Knopp 归一化方案显著降低参数畸变率，量化速度较 HQQ 提升 2 倍、对比 AWQ 加速超 30 倍，并提供预量化模型库与 lm-eval 集成工具。

新闻排行

热门新闻