Anthropic 发布 AI 审计智能体系统，三维架构破解模型对齐验证瓶颈

07月

25日

Anthropic 发布 AI 审计智能体系统，三维架构破解模型对齐验证瓶颈

牛透社 2025 年 7 月 25 日消息，人工智能企业 Anthropic 公司发布新型审计智能体（Audit Agent），该产品具备三维审计架构覆盖探查 – 评估 – 攻防全链条技术优势，主要应用于 AI 模型对齐测试领域。

Anthropic 专注 AI 安全性与可靠性研究，其开发的工具调用探索者、行为鉴别师、广度优先红队三类智能体系统分别承担开放式研究、行为评估框架构建和预设测试行为发现功能。实战测试显示元智能体整合方案使模型溯源成功率显著提升，相关代码已在 GitHub 开源，当前系统在细微行为识别和交互式对话特征捕获方面仍需持续改进。

新闻排行

热门新闻