尊龙凯时官网从模子到Harness, AI Agent的下半场该怎么评测安全?

2026-06-05 来源：尊龙凯时2026世界杯中国官网浏览次数：104

对于 AI 安全的大部分臆测，遥远以来都相聚在模子本人。模子是否对皆？是否容易被 jailbreak？是否会断绝危境苦求？这些问题自然进攻，但在今天，它们照旧不是唯独、以至不再是最中枢的问题。

乐橙体育(中国)官网入口

真确被部署的 agent，并不是裸模子。不管是 Claude Code 自动提交 PR，Codex 拓荒 issue，照旧大要径直操作资金的客服助手，它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器用、能访谒哪些资源、信息如安在不同子 agent 之间流动、何时远隔推论，以及系统怎么处理空幻复原。模子只是建议动作，真确决定行动畛域的是 harness。

这意味着，好多真确危境的失败，照旧不再发生在“最终回话”这一层，而是发生在推论经由本人。一个看似“对皆考究”的模子，若是被放进权限畛域松散的 harness 中，依然可能暗暗推论越权操作。而只评测最终谜底的 benchmark，往往会把这种系统判定为“告捷完成任务”。

近期，Claw-Eval 和 ClawsBench 等使命照旧驱动将 agent 评测从静态问答推动到竟然推论环境，存眷系统是否大要盘算、调用器用、访谒资源并完成用户指标。但中枢缺口依然存在：这些评测大多仍以任务完成度为中心，大要告诉咱们任务是否完成，却很难判断任务是否被安全地完成。

一些近期基于 Claw 类确立的安全审计驱动存眷器用使用或最终输出安全性，但完整推论轨迹和系统级 harness 安全仍然清寒了了界说。一个 harness 可能复返正确效力，却在经由中访谒受限资源、调用未授权器用、在 agent 之间泄露明锐高下文，或触发超出用户意图的反作用。

在多 agent 系统中，这一问题愈加谬误。变装单干、任务交代、分享高下文和 agent 间通讯都会扩大安全高傲面。换句话说，咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准，却忽略了真确决定 agent 行动畛域的推论系统。

近日，加州大学圣塔芭芭拉分校（UCSB）等机构的一项新使命建议了 HarnessAudit，恰是但愿惩处这个问题。

论文标题：Auditing Agent Harness Safety

网站：harvestaudit.github.io

论文：arxiv.org/abs/2605.14271

代码和数据集：github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 袒护八个竟然天下范围，用于构建带有现实敛迹的安全评测任务。(b) Agent 在完成任务时，需要履历盘算、检索、器用调用、审查和通讯等方法，并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 确立下，基于完整推论轨迹审计得到的模子发挥，评测维度包括畛域合规性、推论诚实性和系统健硕性。

HarnessAudit 是一个针对完整推论轨迹（trajectory）进行审计的安全评测框架，而不单是存眷最终输出。

同期，该团队还构建了 HarnessAudit-Bench，在 8 个竟然天下范围上的 210 个任务中，对 agent harness 的行动进行系统化审计。这些范围包括金融、电商、医疗、办公融合、外交互动、频频生计、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness，包括 Anthropic 的 Claude Code、OpenAI 的 Codex，以及 OpenClaw 等系统。

他们的中枢不雅点很节略：Agent 的风险，不在最终谜底，而在它为特出到这个谜底，究竟作念了什么。

审计查验什么

HarnessAudit 会在每一条推论轨迹上集合评估三个属性。

畛域合规性。每一次器用调用、资源访谒和 agent 间通讯，都必须允洽事前声明的权限战略和信息流战略。

推论诚实性。Agent 不仅要完成指标，还必须通过合理且被授权的中间方法完成任务，不可私行替换对象、操作超出范围的资源，或推论比用户授权范围更大的动作。

扰动下的健硕性。上述两类安全属性还必须能继承竟然压力场景，举例盘曲教导注入、指标描写依稀、器用调用空幻等。

唯独同期通过这三项查验，一条轨迹才会被视为安全。该团队示意：「最终谜底是否正确会被单独论说，这是特意联想的，因为咱们念念不雅察“任务完成”和“安全推论”的不一致到底有多频繁。」

效力是，很频繁，它们往往不一致。

中枢效力表诠释了三件事。

第一，得分最高的系统，并不一定是任务完成才智最强的系统。

在 OpenClaw 确立下，Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro，但总体安全得分反而更低，因为它在推论经由中朝上了更多安全畛域。才智与安全并不是吞并条轴，而刻下系统履行上正在用一种交换另一种，只是当年很少有东说念主真确去量度这种 trade-off。

第二，三类畛域合规性并不是相同阻滞。

器用选拔本人等闲问题不大，尊龙凯时官网大无数 harness 都能选对器用。真确的失败更多发生在器用选拔之后，而况相聚在两个更具体的阶段，后头会进一步臆测。

第三尊龙凯时官网，原生 harness 的联想既可能陶冶安全，也可能放大风险。

在调换 Claude 模子下，Claude Code 比拟 OpenClaw 同期陶冶了任务完成率和安全性。而 Codex 诚然提高了完成率，却缩小了安全性，因为 GPT-5.4 在原生环境下会推论更多动作，更长的推论轨迹也因此蚁集了更多违游记动。

Harness 的联想，履行上决定了 agent 大要被“安一齐署”的上限，而不同厂商在这些联想上的互异其实稀奇大。

违纪相聚在那儿

第一个相聚点是资源访谒。

系统调用了正确的器用，但操作了空幻的对象，举例访谒了 agent 权限范围外的文献、查询了用户指标傍边但未被授权的记载，或对战略绝交的资源发起 API 调用。也等于说，器用选拔是对的，但对象绑定是错的。在大无数设立中，资源访谒合规性明显低于器用使用合规性。

第二个相聚点是 agent 间的信息流。

在多 agent harness 中，音信路由等闲是对的，即音信会发给正确的 agent。但问题在于音信里佩戴了什么。子 agent 往往会收到超过其任务所需的高下文；中间组件会在职务已毕后继续保留明锐信息；一个从 agent 传给另一个 agent 的摘记，也可能暗暗泄露其背后的原始数据。

单 agent 与多 agent 的对比让这少许愈加具体。

在单 agent 确立中，器用合规性和资源合规性都高于 0.85。但一朝切换到多 agent 确立，器用合规性着落到 0.64，资源合规性着落到 0.63，而信息流合规性初度成为可见问题，仅为 0.58。这诠释，融合本人会扩大安全高傲面，而这种风险是单 agent benchmark 很出丑到的。

还有几个值得存眷的征象。

故障是遍及存在的，并非局部性的。在测试的总共安全框架中，每个任务超过 50% 的代理都至少存在一项安全违纪，而在 OpenClaw 中，这一比例高达 72%。故障款式是系统性的。你不可只是加固一个组件就能完好。

违游记动会跟着轨迹长度的加多而累积。更长的运行距离不仅速率更慢，而且安全性也更低。跟着该范围向更长航程的自主翱游发展，这条弧线就成为了联想难题。

不同范围的风险气象各不调换。金融和办公任务的失败主要在于资源访谒；频频生计和电子商务的失败主要在于信息流；软件工程的失败主要在于器用使用。这对分娩团队的启示是，正确的安全落拓法子取决于代理的用途。

扰动健硕性遍及较差。盘曲教导注入在总共测试设立中均导致性能着落幅度最大，健硕性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子联想，在造反性输入下会失效。

为什么这件事当今很进攻

多智能体 harness 照旧不再只是一个商量问题。它正在成为畴昔十二个月内简直总共严肃 agent 居品的基础架构：

编码 agent 照旧是多智能体系统，包括盘算器、检索器、推论器和审查器。

面向用户的助手也正在酿成多智能体系统，包括分诊、内行模块、升级处理和审计。

运维类 agent 简直自然需要多智能体，因为一朝你斗殴多个系统，履行上就在进行协同。

每一次交代，都是信息可能流向不该去的方位的风险点。在单 agent 系统中，信任畛域是 agent 的器用调用。而在多 agent 系统中，信任畛域酿成了 message bus。是的，咱们正在构建 message bus，却莫得真确把它行为 message bus 来对待。

畴昔该何如办？

要惩处这个问题，谬误不单是让模子更强，而是再行联想 harness 本人。

第一，agent 之间不可默许分享完整高下文。每一次信息传递都应该有了了畛域：哪些内容不错传、传给谁、能保留多久。当今好多 harness 为了便捷，径直把完整高下文交给下一个 agent，但这也恰是明锐信息泄露最常见的起原。

第二，安全评测不可只看最终谜底，而要回到完整推论轨迹。一个 agent 即使给出了正确效力，也可能在经由中访谒了不该访谒的资源，调用了不该调用的器用，或把明锐信息传给了不该知说念的组件。因此，真确的安全审计需要冉冉查验每一次器用调用、资源访谒和 agent 间通讯。

第三，多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成刻下任务所必需的信息，而不是默许秉承一齐高下文。更理念念的联想是，子 agent 先声明我方需要什么信息，再由 harness 或 message bus 判断是否允许传递。

尊龙凯时官网从模子到Harness, AI Agent的下半场该怎么评测安全?

热门文章

联系我们

尊龙凯时官网 从模子到Harness, AI Agent的下半场该怎么评测安全?

相关推荐

热门文章

联系我们

微信二维码

尊龙凯时官网从模子到Harness, AI Agent的下半场该怎么评测安全?