07月
04日
昆仑万维开源 Skywork-Reward-V2 奖励模型,横扫七大评测榜单登顶 SOTA
牛透社 2025 年 7 月 4 日消息,昆仑万维开源第二代奖励模型系列 Skywork-Reward-V2,该系列包含 8 个基于不同基座模型、参数规模从 6 亿至 80 亿不等的开源奖励模型,并采用含 4000 万对偏好对比数据的混合数据集 Skywork-SynPref-40M 进行训练。
该系列首创人机协同两阶段数据处理范式,通过构建人工标注的「金标准」数据集和机器优化的「银标准」数据实现精度突破,在七大主流评测中均达开源领域最高水平(SOTA),其通用对齐能力、客观准确率和泛化性能全面超越竞品。模型技术细节已发布于 HuggingFace 与 GitHub 平台。