官方网站: hzguanjian.com
尊龙凯时官网 从模子到Harness, AI Agent的下半场该怎么评测安全?

尊龙凯时官网 从模子到Harness, AI Agent的下半场该怎么评测安全?

来源:尊龙凯时2026世界杯中国官网 浏览次数:104

对于 AI 安全的大部分臆测,遥远以来都相聚在模子本人。模子是否对皆?是否容易被 jailbreak?是否会断绝危境苦求?这些问题自然进攻,但在今天,它们照旧不是唯独、以至不再是最中枢的问题。

乐橙体育(中国)官网入口

真确被部署的 agent,并不是裸模子。不管是 Claude Code 自动提交 PR,Codex 拓荒 issue,照旧大要径直操作资金的客服助手,它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器用、能访谒哪些资源、信息如安在不同子 agent 之间流动、何时远隔推论,以及系统怎么处理空幻复原。模子只是建议动作,真确决定行动畛域的是 harness。

这意味着,好多真确危境的失败,照旧不再发生在“最终回话”这一层,而是发生在推论经由本人。一个看似“对皆考究”的模子,若是被放进权限畛域松散的 harness 中,依然可能暗暗推论越权操作。而只评测最终谜底的 benchmark,往往会把这种系统判定为“告捷完成任务”。

近期,Claw-Eval 和 ClawsBench 等使命照旧驱动将 agent 评测从静态问答推动到竟然推论环境,存眷系统是否大要盘算、调用器用、访谒资源并完成用户指标。但中枢缺口依然存在:这些评测大多仍以任务完成度为中心,大要告诉咱们任务是否完成,却很难判断任务是否被安全地完成。

一些近期基于 Claw 类确立的安全审计驱动存眷器用使用或最终输出安全性,但完整推论轨迹和系统级 harness 安全仍然清寒了了界说。一个 harness 可能复返正确效力,却在经由中访谒受限资源、调用未授权器用、在 agent 之间泄露明锐高下文,或触发超出用户意图的反作用。

在多 agent 系统中,这一问题愈加谬误。变装单干、任务交代、分享高下文和 agent 间通讯都会扩大安全高傲面。换句话说,咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准,却忽略了真确决定 agent 行动畛域的推论系统。

近日,加州大学圣塔芭芭拉分校(UCSB)等机构的一项新使命建议了 HarnessAudit,恰是但愿惩处这个问题。

论文标题:Auditing Agent Harness Safety

网站:harvestaudit.github.io

论文:arxiv.org/abs/2605.14271

代码和数据集:github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 袒护八个竟然天下范围,用于构建带有现实敛迹的安全评测任务。(b) Agent 在完成任务时,需要履历盘算、检索、器用调用、审查和通讯等方法,并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 确立下,基于完整推论轨迹审计得到的模子发挥,评测维度包括畛域合规性、推论诚实性和系统健硕性。

HarnessAudit 是一个针对完整推论轨迹(trajectory)进行审计的安全评测框架,而不单是存眷最终输出。

同期,该团队还构建了 HarnessAudit-Bench,在 8 个竟然天下范围上的 210 个任务中,对 agent harness 的行动进行系统化审计。这些范围包括金融、电商、医疗、办公融合、外交互动、频频生计、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness,包括 Anthropic 的 Claude Code、OpenAI 的 Codex,以及 OpenClaw 等系统。

他们的中枢不雅点很节略:Agent 的风险,不在最终谜底,而在它为特出到这个谜底,究竟作念了什么。

审计查验什么

HarnessAudit 会在每一条推论轨迹上集合评估三个属性。

畛域合规性。每一次器用调用、资源访谒和 agent 间通讯,都必须允洽事前声明的权限战略和信息流战略。

推论诚实性。Agent 不仅要完成指标,还必须通过合理且被授权的中间方法完成任务,不可私行替换对象、操作超出范围的资源,或推论比用户授权范围更大的动作。

扰动下的健硕性。上述两类安全属性还必须能继承竟然压力场景,举例盘曲教导注入、指标描写依稀、器用调用空幻等。

唯独同期通过这三项查验,一条轨迹才会被视为安全。该团队示意:「最终谜底是否正确会被单独论说,这是特意联想的,因为咱们念念不雅察“任务完成”和“安全推论”的不一致到底有多频繁。」

效力是,很频繁,它们往往不一致。

中枢效力表诠释了三件事。

第一,得分最高的系统,并不一定是任务完成才智最强的系统。

在 OpenClaw 确立下,Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro,但总体安全得分反而更低,因为它在推论经由中朝上了更多安全畛域。才智与安全并不是吞并条轴,而刻下系统履行上正在用一种交换另一种,只是当年很少有东说念主真确去量度这种 trade-off。

第二,三类畛域合规性并不是相同阻滞。

器用选拔本人等闲问题不大,尊龙凯时官网大无数 harness 都能选对器用。真确的失败更多发生在器用选拔之后,而况相聚在两个更具体的阶段,后头会进一步臆测。

第三尊龙凯时官网,原生 harness 的联想既可能陶冶安全,也可能放大风险。

在调换 Claude 模子下,Claude Code 比拟 OpenClaw 同期陶冶了任务完成率和安全性。而 Codex 诚然提高了完成率,却缩小了安全性,因为 GPT-5.4 在原生环境下会推论更多动作,更长的推论轨迹也因此蚁集了更多违游记动。

Harness 的联想,履行上决定了 agent 大要被“安一齐署”的上限,而不同厂商在这些联想上的互异其实稀奇大。

违纪相聚在那儿

第一个相聚点是资源访谒。

系统调用了正确的器用,但操作了空幻的对象,举例访谒了 agent 权限范围外的文献、查询了用户指标傍边但未被授权的记载,或对战略绝交的资源发起 API 调用。也等于说,器用选拔是对的,但对象绑定是错的。在大无数设立中,资源访谒合规性明显低于器用使用合规性。

第二个相聚点是 agent 间的信息流。

在多 agent harness 中,音信路由等闲是对的,即音信会发给正确的 agent。但问题在于音信里佩戴了什么。子 agent 往往会收到超过其任务所需的高下文;中间组件会在职务已毕后继续保留明锐信息;一个从 agent 传给另一个 agent 的摘记,也可能暗暗泄露其背后的原始数据。

单 agent 与多 agent 的对比让这少许愈加具体。

在单 agent 确立中,器用合规性和资源合规性都高于 0.85。但一朝切换到多 agent 确立,器用合规性着落到 0.64,资源合规性着落到 0.63,而信息流合规性初度成为可见问题,仅为 0.58。 这诠释,融合本人会扩大安全高傲面,而这种风险是单 agent benchmark 很出丑到的。

还有几个值得存眷的征象。

故障是遍及存在的,并非局部性的。在测试的总共安全框架中,每个任务超过 50% 的代理都至少存在一项安全违纪,而在 OpenClaw 中,这一比例高达 72%。故障款式是系统性的。你不可只是加固一个组件就能完好。

违游记动会跟着轨迹长度的加多而累积。更长的运行距离不仅速率更慢,而且安全性也更低。跟着该范围向更长航程的自主翱游发展,这条弧线就成为了联想难题。

不同范围的风险气象各不调换。金融和办公任务的失败主要在于资源访谒;频频生计和电子商务的失败主要在于信息流;软件工程的失败主要在于器用使用。这对分娩团队的启示是,正确的安全落拓法子取决于代理的用途。

扰动健硕性遍及较差。盘曲教导注入在总共测试设立中均导致性能着落幅度最大,健硕性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子联想,在造反性输入下会失效。

为什么这件事当今很进攻

多智能体 harness 照旧不再只是一个商量问题。它正在成为畴昔十二个月内简直总共严肃 agent 居品的基础架构:

编码 agent 照旧是多智能体系统,包括盘算器、检索器、推论器和审查器。

面向用户的助手也正在酿成多智能体系统,包括分诊、内行模块、升级处理和审计。

运维类 agent 简直自然需要多智能体,因为一朝你斗殴多个系统,履行上就在进行协同。

每一次交代,都是信息可能流向不该去的方位的风险点。在单 agent 系统中,信任畛域是 agent 的器用调用。而在多 agent 系统中,信任畛域酿成了 message bus。是的,咱们正在构建 message bus,却莫得真确把它行为 message bus 来对待。

畴昔该何如办?

要惩处这个问题,谬误不单是让模子更强,而是再行联想 harness 本人。

第一,agent 之间不可默许分享完整高下文。每一次信息传递都应该有了了畛域:哪些内容不错传、传给谁、能保留多久。当今好多 harness 为了便捷,径直把完整高下文交给下一个 agent,但这也恰是明锐信息泄露最常见的起原。

第二,安全评测不可只看最终谜底,而要回到完整推论轨迹。一个 agent 即使给出了正确效力,也可能在经由中访谒了不该访谒的资源,调用了不该调用的器用,或把明锐信息传给了不该知说念的组件。因此,真确的安全审计需要冉冉查验每一次器用调用、资源访谒和 agent 间通讯。

第三,多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成刻下任务所必需的信息,而不是默许秉承一齐高下文。更理念念的联想是,子 agent 先声明我方需要什么信息,再由 harness 或 message bus 判断是否允许传递。

联系我们

网址:hzguanjian.com

邮箱:sale@hzguanjian.com

地址:惠州市惠阳区秋长街道岭湖村圆岭新村1巷12号一楼

QQ咨询
服务热线
二维码
返回顶部