09月
22日
Anthropic 拟投 10 亿美元布局 RL 环境训练场 数据巨头 Scale AI 与初创公司竞逐 AI 代理新基建
牛透社太平洋时间 9 月 21 日消息,人工智能公司 Anthropic 高层正讨论未来一年在强化学习(RL)环境领域投入超 10 亿美元。数据标注巨头 Scale AI、Surge 及 Mercor 加码投资并推动业务转型,初创公司 Mechanize 与 Prime Intellect 获重金押注。
RL 环境作为模拟真实软件操作场景的虚拟训练场,被头部实验室视为 AI 代理训练的新基建。Mechanize 专注于编码代理的 RL 环境开发,已与 Anthropic 达成合作;Prime Intellect 推出面向中小开发者的“RL 环境中心”;Surge 与 Mercor 分别成立专项部门和定制化场景方案。当前技术路径通过大型 Transformer 模型训练通用操作代理,但存在出错率较高的挑战。
业界对此态度分化,前 Meta AI 研究主管罗斯·泰勒警告“奖励黑客”风险,OpenAI 工程师 Sherwin Wu 则对初创公司前景持保留态度。