新锐团队Thinking Machine发布在线策略蒸馏方法，实现AI训练效率百倍跃升

10月

28日

新锐团队Thinking Machine发布在线策略蒸馏方法，实现AI训练效率百倍跃升

牛透社 2025 年 10 月 28 日消息，新兴研究机构 Thinking Machine 发布在线策略蒸馏（On-Policy Distillation）训练方法，该方法可使小型模型在特定任务上的训练效率提升 50 至 100 倍。

在数学推理基准测试中，80 亿参数模型仅需原始强化学习方法 1/7 到 1/10 的训练步骤就让 8B 小模型达到接近 32B 大模型的性能水平，并成功克服灾难性遗忘问题。研究团队由前 OpenAI 核心技术负责人 Kevin Lu 博士领导，专注于通过小型化模型赋能垂直领域 AI 应用。

新闻排行