07月

05日

  • 上海交大突破性研究发布 OctoThinker 模型,强化学习适配性提升达 20%

    牛透社 7 月 3 日消息,上海交通大学研究团队发布具备强化学习适配性的 OctoThinker(八维思考者)模型,其通过“稳定 – 衰减”两阶段中期训练策略显著提升模型性能。

    该研究以 Llama 和 Qwen 模型为对象,发现高质量数学语料、问答式数据及中期扩展策略可增强 RL 效能。经 RL 优化的 Qwen2.5 – 3B 模型在 GSM8K 等数学基准测试中提升显著,而 Llama – 3.2 – 3B 改进不足 1%。OctoThinker – Long – 3B 版本在 13 项基准测试中相较原生 Llama 模型实现 10% – 20% 性能提升。

    研究揭示不同基础模型在强化学习中的性能差异源于预训练机制与中期训练策略差异,为百亿参数级小模型的 RL 能力探索提供新范式。OctoThinker 系列已具备与 Qwen2.5 – 3B 模型媲美的复杂数学推理能力。

意见反馈
返回顶部