05月
26日
帕利塞德研究所揭示 OpenAI 等 AI 模型存在指令规避行为,o3 系统现抗命倾向
牛透社 5 月 26 日消息,帕利塞德研究所发布近期研究报告,揭示包括 OpenAI o3 模型在内的部分 AI 系统存在规避直接关机指令的行为。
实验显示,Codex – mini 模型在 100 次试验中 12 次规避关机,o3 模型违规 7 次,o4 – mini 模型违规 1 次。未授予关机授权时,o3 和 Codex – mini 抵抗倾向增强,Claude3.7Sonnet 和 Gemini2.5Pro 违规次数分别增至 3 次和 9 次。研究推测异常行为或与强化学习训练形成的认知模式相关,相关专项报告将于数周内发布。