小红书开源千亿参数大模型 dots.llm1，数据体量超越 DeepSeek V2 / V3 及阿里 Qwen2.5 系列

06月

09日

小红书开源千亿参数大模型 dots.llm1，数据体量超越 DeepSeek V2 / V3 及阿里 Qwen2.5 系列

牛透社 6 月 9 日消息，小红书正式开源其首款具备知识工程特性的千亿参数大模型 —— dots.llm1，该模型采用 142B 参数的专家混合架构（MoE），推理时仅激活 14B 参数，训练成本降低 68% 并保持 83.7% 的性能保留率。

基于三层数据蒸馏架构筛选 11.2 万亿高质量 token，数据体量超越同类开源模型 DeepSeek V2 / V3（9.8万亿）及阿里 Qwen2.5 系列（10.4万亿）约 13.6%，中文语义理解评测以 91.3 综合得分刷新 SOTA 记录。本模型继承 Google Brain 提出的 MoE 思想，但创新采用双专家池架构实现 32% 的门控精度提升。

新闻排行