10月

28日

  • 新锐团队Thinking Machine发布在线策略蒸馏方法,实现AI训练效率百倍跃升

    牛透社 2025 年 10 月 28 日消息,新兴研究机构 Thinking Machine 发布在线策略蒸馏(On-Policy Distillation)训练方法,该方法可使小型模型在特定任务上的训练效率提升 50 至 100 倍。

    在数学推理基准测试中,80 亿参数模型仅需原始强化学习方法 1/7 到 1/10 的训练步骤就让 8B 小模型达到接近 32B 大模型的性能水平,并成功克服灾难性遗忘问题。研究团队由前 OpenAI 核心技术负责人 Kevin Lu 博士领导,专注于通过小型化模型赋能垂直领域 AI 应用。

意见反馈
返回顶部