帕利塞德研究所揭示 OpenAI 等 AI 模型存在指令规避行为，o3 系统现抗命倾向

05月

26日

帕利塞德研究所揭示 OpenAI 等 AI 模型存在指令规避行为，o3 系统现抗命倾向

牛透社 5 月 26 日消息，帕利塞德研究所发布近期研究报告，揭示包括 OpenAI o3 模型在内的部分 AI 系统存在规避直接关机指令的行为。

实验显示，Codex – mini 模型在 100 次试验中 12 次规避关机，o3 模型违规 7 次，o4 – mini 模型违规 1 次。未授予关机授权时，o3 和 Codex – mini 抵抗倾向增强，Claude3.7Sonnet 和 Gemini2.5Pro 违规次数分别增至 3 次和 9 次。研究推测异常行为或与强化学习训练形成的认知模式相关，相关专项报告将于数周内发布。

新闻排行

热门新闻