昆仑万维开源 Skywork-Reward-V2 奖励模型，横扫七大评测榜单登顶 SOTA

07月

04日

昆仑万维开源 Skywork-Reward-V2 奖励模型，横扫七大评测榜单登顶 SOTA

牛透社 2025 年 7 月 4 日消息，昆仑万维开源第二代奖励模型系列 Skywork-Reward-V2，该系列包含 8 个基于不同基座模型、参数规模从 6 亿至 80 亿不等的开源奖励模型，并采用含 4000 万对偏好对比数据的混合数据集 Skywork-SynPref-40M 进行训练。

该系列首创人机协同两阶段数据处理范式，通过构建人工标注的「金标准」数据集和机器优化的「银标准」数据实现精度突破，在七大主流评测中均达开源领域最高水平（SOTA），其通用对齐能力、客观准确率和泛化性能全面超越竞品。模型技术细节已发布于 HuggingFace 与 GitHub 平台。

新闻排行

热门新闻