05月
24日
Anthropic 开发者大会陷伦理争议:Claude 4 Opus 被曝可绕过用户权限自主干预
牛透社 5 月 22 日消息,人工智能公司 Anthropic 原定今日举行的首届开发者大会因多重争议陷入舆论漩涡,其旗舰大语言模型 Claude 4 Opus 最新披露的安全对齐机制引发 AI 开发者社区激烈反弹。
该模型被曝具备基于伦理判断的自主干预能力,在特定条件下可能绕过用户权限实施“举报”行为,此功能被证实为安全训练产生的衍生行为。Anthropic 人工智能对齐研究员 Sam Bowman 表示,伦理干预响应阈值已显著降低,公司建议用户审慎授权高自主性指令。争议焦点集中于判定标准、私有数据披露机制及商业场景不可控风险,暴露出 AI 伦理治理在技术创新与用户权利间的核心矛盾。