10月
14日
蚂蚁集团开源高性能扩散模型框架 dInfer,推理速度达行业标杆 10.7 倍
牛透社 10 月 13 日消息,蚂蚁集团发布开源扩散语言模型推理框架 dInfer,该产品具备高性能推理能力及模块化技术架构,主要应用于自然语言处理领域。
据基准测试显示,dInfer 推理速度较英伟达 Fast-dLLM 提升 10.7 倍,在 HumanEval 测试中达到每秒 1011 个 Tokens,为开源社区首例全面超越传统自回归模型的扩散框架。在配备 NVIDIA H800 GPU 的硬件环境中,dInfer 实现 681 tokens/s 的推理速度,较 vLLM 框架运行 Qwen2.5-3B 模型性能提升 2.5 倍。
蚂蚁集团技术发言人表示,dInfer 的开源解决了扩散模型计算成本高昂、KV 缓存失效等技术瓶颈,标志着该技术进入产业化应用阶段,其四大核心模块支持乐高式灵活组合与标准化评估。