06月
09日
小红书开源千亿参数大模型 dots.llm1,数据体量超越 DeepSeek V2 / V3 及阿里 Qwen2.5 系列
牛透社 6 月 9 日消息,小红书正式开源其首款具备知识工程特性的千亿参数大模型 —— dots.llm1,该模型采用 142B 参数的专家混合架构(MoE),推理时仅激活 14B 参数,训练成本降低 68% 并保持 83.7% 的性能保留率。
基于三层数据蒸馏架构筛选 11.2 万亿高质量 token,数据体量超越同类开源模型 DeepSeek V2 / V3(9.8万亿)及阿里 Qwen2.5 系列(10.4万亿)约 13.6%,中文语义理解评测以 91.3 综合得分刷新 SOTA 记录。本模型继承 Google Brain 提出的 MoE 思想,但创新采用双专家池架构实现 32% 的门控精度提升。