10月

30日

  • 前 OpenAI CTO 团队突破 AI 训练瓶颈,80 亿小模型以 10% 成本实现大模型 70% 性能

    牛透社 10 月 30 日消息,由前 OpenAI 首席技术官 Mira Murati 领导的 Thinking Machines 实验室发布突破性技术“在线策略蒸馏”(On-Policy Distillation)。

    该技术训练的 80 亿参数小模型性能可达 32B 大模型的 70%,训练成本骤降 90%,效率提升 50 至 100 倍。以 AIME’24 任务为例,传统强化学习需 17,920 GPU 小时实现 68% 准确率,而该技术仅用 150 步训练即达 70% 准确率。其“每 token 密集反馈”机制通过教师模型实时校准每个文本标记,防止策略漂移,适配企业级动态学习场景,解决 AI 模型“灾难性遗忘”问题。

    实验室核心业务为高效小模型开发,技术架构仅需四步闭环:部署教师模型、生成响应轨迹、计算标记对数概率、优化学生参数,兼容现有蒸馏框架,可扩展至代码生成及多模态推理领域,推动 AI 向边缘计算终端渗透。

意见反馈
返回顶部