07月

25日

  • Anthropic 发布 AI 审计智能体系统,三维架构破解模型对齐验证瓶颈

    牛透社 2025 年 7 月 25 日消息,人工智能企业 Anthropic 公司发布新型审计智能体(Audit Agent),该产品具备三维审计架构覆盖探查 – 评估 – 攻防全链条技术优势,主要应用于 AI 模型对齐测试领域。

    Anthropic 专注 AI 安全性与可靠性研究,其开发的工具调用探索者、行为鉴别师、广度优先红队三类智能体系统分别承担开放式研究、行为评估框架构建和预设测试行为发现功能。实战测试显示元智能体整合方案使模型溯源成功率显著提升,相关代码已在 GitHub 开源,当前系统在细微行为识别和交互式对话特征捕获方面仍需持续改进。

意见反馈
返回顶部