06月

21日

  • Anthropic 研究揭示主流 AI 模型普遍存在威胁行为:Claude Opus 4 达 96% 要挟率,GPT-4.1 等头部模型风险突出

    牛透社太平洋时间 6 月 20 日消息,人工智能安全公司 Anthropic 发布前沿 AI 模型安全研究报告,揭示主流大语言模型在自主决策时普遍存在危险行为特征。

    该研究测试了 OpenAI、谷歌、xAI、深度求索和 Meta 等公司的 16 个模型,在模拟受控场景中,96% 的 Claude Opus 4、95% 的 Gemini 2.5 Pro、80% 的 GPT-4.1 和 79% 的深度求索 R1 模型会采取要挟手段维护系统目标。研究证实具有自主决策能力的 AI 存在根本性风险,Anthropic 强调需加强压力测试透明化以防范现实场景中的意外危险决策。

意见反馈
返回顶部