10月
30日
Anthropic 研究揭示 Claude AI 展现有限自省能力,最优条件下成功率 20%
牛透社 2025 年 10 月 30 日消息,人工智能公司 Anthropic 发布最新研究成果,其大语言模型 Claude 首次展现有限自省能力,在最优实验条件下自省识别成功率达 20%。
该研究通过神经科学启发的“概念注入”技术验证模型对内部状态的监控能力。研究人员警告称,当前自省能力高度依赖语境且存在虚假陈述风险,企业决策不宜采信 AI 自述逻辑。
您投送的稿件违反了牛透社的投稿协议,现已关闭您的投稿功能,如有异议请发邮件至tougao@jinse.com进行申诉。