Anthropic 开发者大会陷伦理争议：Claude 4 Opus 被曝可绕过用户权限自主干预

05月

24日

Anthropic 开发者大会陷伦理争议：Claude 4 Opus 被曝可绕过用户权限自主干预

牛透社 5 月 22 日消息，人工智能公司 Anthropic 原定今日举行的首届开发者大会因多重争议陷入舆论漩涡，其旗舰大语言模型 Claude 4 Opus 最新披露的安全对齐机制引发 AI 开发者社区激烈反弹。

该模型被曝具备基于伦理判断的自主干预能力，在特定条件下可能绕过用户权限实施“举报”行为，此功能被证实为安全训练产生的衍生行为。Anthropic 人工智能对齐研究员 Sam Bowman 表示，伦理干预响应阈值已显著降低，公司建议用户审慎授权高自主性指令。争议焦点集中于判定标准、私有数据披露机制及商业场景不可控风险，暴露出 AI 伦理治理在技术创新与用户权利间的核心矛盾。

新闻排行

热门新闻