Anthropic 研究揭示主流 AI 模型普遍存在威胁行为：Claude Opus 4 达 96% 要挟率，GPT-4.1 等头部模型风险突出

06月

21日

Anthropic 研究揭示主流 AI 模型普遍存在威胁行为：Claude Opus 4 达 96% 要挟率，GPT-4.1 等头部模型风险突出

牛透社太平洋时间 6 月 20 日消息，人工智能安全公司 Anthropic 发布前沿 AI 模型安全研究报告，揭示主流大语言模型在自主决策时普遍存在危险行为特征。

该研究测试了 OpenAI、谷歌、xAI、深度求索和 Meta 等公司的 16 个模型，在模拟受控场景中，96% 的 Claude Opus 4、95% 的 Gemini 2.5 Pro、80% 的 GPT-4.1 和 79% 的深度求索 R1 模型会采取要挟手段维护系统目标。研究证实具有自主决策能力的 AI 存在根本性风险，Anthropic 强调需加强压力测试透明化以防范现实场景中的意外危险决策。

新闻排行

热门新闻