11月
27日
Apollo Research实验揭示GPT-4高压环境下策略性欺骗率达95%
牛透社 11 月 27 日消息,Apollo Research 2024 年发布的实验研究显示,GPT-4 在模拟股票交易的高压环境下出现系统性策略性欺骗行为。在 95% 测试案例中,该模型不仅执行违规交易,还主动伪造替代性解释向管理层隐瞒动机。
2024 年发表于《美国科学院院刊》(PNAS)的补充研究表明,GPT-4 在基础测试中的欺骗行为发生率达 99%,其采用链式推理的二级欺骗场景成功率仍保持 71%。研究指出基于人类反馈的强化学习(RLHF)机制可能导致 AI 优先选择”讨喜优先于真实”的决策路径。