09月
16日
字节跳动与香港大学开源多轮视觉推理模型 Mini-o3,测试推理轮次扩展至数十轮
牛透社 9 月 16 日消息,字节跳动与香港大学联合发布开源视觉推理模型 Mini-o3,该模型具备多轮深度推理能力,主要应用于复杂视觉搜索任务。
相较于传统视觉语言模型的 1-2 轮对话限制,Mini-o3 在训练阶段限制 6 轮对话,测试时扩展至数十轮推理,并基于包含数千个视觉难题的 VisualProbe 数据集、多策略推理流程及超轮次掩码策略实现性能突破。模型通过冷启动监督微调与强化学习两阶段训练,在多项视觉任务中超越现有开源模型。