
2026年5月AI企业Anthropic正式发布《Zero Trust for AI Agents》安全白皮书聚焦AI Agent场景推出一套完整的零信任落地框架。这份文件跳出了传统大模型内容风控、提示词防护的固有范畴直击当下企业普遍面临的难题当AI Agent具备独立身份、工具调用权限、数据读写能力、长期记忆与自主执行能力后企业该如何重构配套安全架构守住智能化转型中的安全底线。白皮书明确提出核心观点AI Agent绝非普通对话机器人而是一套可自主拆解任务、联动工具、访问数据并执行各类操作的自治系统。传统的边界安全、静态权限管控手段无法规避Agent滥用合法权限带来的风险。因此企业部署AI Agent必须严格遵循零信任核心原则——默认所有主体不可信、全程持续校验、提前假设系统已被攻破以此搭建全新的安全防御体系。一、AI Agent推行零信任的核心缘由以往企业针对大模型的安全管控大多聚焦输入、输出两端筛查输入内容是否违规拦截模型不良输出防范模型越狱等问题。但AI Agent的出现让安全风险发生了本质变化。区别于仅负责问答的大模型AI Agent能够自主规划任务路径、串联多类工具、操作系统后台、收发邮件、编辑代码还可与其他Agent协同作业。它的风险不再局限于“输出不当言论”而是会直接引发实质性的违规操作。例如客服Agent被诱导外泄客户隐私数据、代码Agent被植入恶意逻辑篡改代码仓库、高权限Agent向下级子Agent扩散权限、被污染记忆的Agent持续做出错误决策等。简言之传统大模型安全管控的是内容输出而AI Agent安全管控的是自主行为。零信任架构原本就是为弥补传统网络边界防护的缺陷而生主张安全防护围绕用户、资产、资源展开不因为主体处于内网、归属企业资产就无条件赋予信任。将这套逻辑迁移至AI Agent场景就是摒弃固有认知不默认Agent意图纯正、不默认工具调用合理、不默认记忆数据安全、不默认权限不会被滥用。AI Agent存在被诱导、误判、上下文污染、工具链攻击等诸多隐患甚至会成为攻击者横向渗透的跳板。基于此安全架构的设计思路要前置预判风险依靠身份核验、权限隔离、全链路审计、故障回滚、应急响应等机制将安全风险控制在可承受范围之内。二、AI Agent系统五大核心安全风险结合当下实战场景Anthropic将AI Agent生态的主要风险划分为五大类这些风险远超传统模型安全的管控范畴也是企业搭建防护体系的核心靶点。一提示注入与指令劫持提示注入是AI Agent最基础且最难根治的安全威胁分为直接注入与间接注入两种类型。直接提示注入指攻击者在用户输入中嵌入恶意指令诱导Agent无视原有规则、泄露数据或执行违规操作间接注入隐蔽性更强攻击者将恶意指令隐藏在网页、邮件、文档、代码注释、知识库等外部内容中Agent读取外部数据时会误将其当作执行指令风险传播范围更广。大模型依靠语义序列进行解析很难精准区分“待分析数据”与“执行指令”这也是此类攻击频发的核心原因。微软研究院推出的Spotlighting技术可有效缓解该问题通过标记不可信内容能将间接提示注入的攻击成功率从50%以上降至2%以下。相较于普通聊天机器人Agent遭遇提示注入的后果更为严重一旦被操控会直接调用工具、篡改数据、对外传输信息造成实质性损失。二工具与资源滥用工具是AI Agent发挥能力的核心载体同时也是高危风险点。当Agent对接数据库、CRM系统、邮件服务、代码仓库、内部API等工具后攻击者无需攻破工具本身只需诱导Agent在合法权限内进行操作就能实现数据窃取、越权操作、资源挤占等恶意行为。工具链攻击的威胁尤为突出单一工具的权限与规则看似安全但多个工具串联使用就会形成风险链路。比如单独的CRM工具仅支持读取客户信息邮件工具仅支持正常发信二者组合后被诱导的Agent就会将客户数据通过邮件外泄。这也意味着针对AI Agent的安全管控不能只依靠提示词约束必须从工具权限层面筑牢防线。三身份与权限滥用企业中的AI Agent大多依托服务账号、API密钥、OAuth凭证等运行传统身份与权限管理体系面向人类用户和静态服务设计完全适配不了Agent自主拆分任务、调用子Agent、跨系统协作的特性衍生出多重权限风险。高权限Agent可能随意向低权限子Agent传递权限低权限Agent也可能诱导高权限主体代行违规操作Agent缓存会话凭证易引发跨会话提权多Agent共用同一服务账号还会导致事后审计无法定位责任主体。对此行业在“最小权限”原则基础上延伸出**最小代理权Least Agency**理念最小权限仅限制访问范围而最小代理权会进一步约束Agent的操作行为、执行时间、调用频率、使用场景并对高危操作增设审批流程。四供应链与依赖污染AI Agent的供应链复杂度远高于传统软件。传统软件供应链主要关注代码包、运行环境等而AI Agent的供应链覆盖模型文件、训练及微调数据、RAG知识库、插件、外部API、角色配置、长期记忆等全环节。供应链任意节点被篡改、植入后门都会直接改变Agent的行为逻辑。例如篡改工具描述会误导Agent调用恶意程序污染RAG知识库会让Agent持续引用错误信息模型植入后门则会在特定条件下触发异常行为。针对该问题白皮书建议企业引入AI-BOM体系类比传统软件SBOM完整记录模型来源、训练数据、微调参数、工具组件及各类运行依赖一旦出现安全事件可快速溯源定位风险源头。五记忆与上下文投毒长期记忆是优化AI Agent使用体验的重要功能同时也是极易被忽视的安全短板。普通提示注入仅影响单一会话而记忆投毒会产生长期危害攻击者通过单次正常交互将恶意规则、错误信息、异常操作偏好写入Agent记忆即便攻击行为终止后续所有会话都会持续受到影响。除此之外记忆漂移的隐蔽性更强攻击者通过多轮轻微污染逐步改变Agent的判断标准、工具选择倾向与风险认知单次改动危害微弱但长期累积会让Agent行为彻底偏离企业规范。这要求企业必须将Agent记忆纳入安全治理范畴落实隔离、溯源、校验、版本管理、生命周期管控与异常回滚等能力。三、AI Agent零信任三层架构按安全成熟度划分白皮书将AI Agent零信任体系划分为三层架构三层并非简单的产品版本区分而是对应企业不同安全成熟度、业务风险等级与合规要求企业可结合自身情况分步落地。一Foundation基础层硬性安全基线该层级是所有上线AI Agent的企业必须达成的最低安全标准核心目标是做到“出问题可追溯、可处置”。基础层要求为每一个Agent配置密码学级别的唯一可验证身份摒弃静态API密钥、共享服务账号改用身份机构签发的短期动态令牌并严格收缩权限范围。同时配套基础访问控制、身份隔离、全链路日志、输入输出校验、配置版本管理与应急回滚流程。静态密钥极易被窃取、复用即便定期轮换也无法根除隐患因此基础层明确禁止将其作为Agent的主要认证方式。二Enterprise企业层生产环境标准配置企业层是中大型企业、正式生产场景的主流建设目标在基础层之上完善全维度治理能力实现“部署可管控、运行可监管”。此层级引入证书认证、双向TLS、证书全生命周期管理、基于属性的动态访问控制ABAC、运行沙箱、实时日志流、不可篡改审计日志、异常行为检测与自动化响应机制并搭建标准化AI治理流程。管控逻辑从“单纯校验权限”升级为“综合研判行为”核查Agent的任务属性、访问数据敏感度、调用时段、请求频次、工具调用链路是否符合历史常态。当企业内部Agent、工具、业务系统数量增多时依靠这套体系可摆脱人工管控的低效困境将Agent安全全面融入企业现有安全架构。三Advanced高级层高风险场景防护体系高级层面向金融核心业务、政务系统、医疗数据、关键基础设施、涉密场景等高风险环境这类场景中Agent一旦失控会造成重大安全事故与经济损失。该层级依托硬件实现深度防护采用硬件绑定身份、远程证明、硬件安全模块HSM/TPM、机密计算等技术保障凭证无法被导出复用权限采用即时授权JIT/JEA模式仅在任务执行期间临时开放权限任务结束自动回收。同时搭建全链路溯源系统、机器学习行为识别模型、自愈系统与自动化策略执行引擎确保Agent每一步操作都可追踪、可解释、可复盘出现异常时自动隔离、快速回滚最大化降低事故影响。整体来看三层架构印证了AI Agent安全并非单点工具防护而是融合身份、权限、工具、网络、记忆、审计、响应的综合性安全运行体系。四、八阶段落地实施流程全生命周期安全建设三层架构明确了安全能力建设方向而八阶段实施流程则规划了落地顺序覆盖AI Agent从规划、上线到运维的全生命周期为企业安全团队提供清晰的落地指引。第一阶段梳理业务需求划定业务边界部署AI Agent前企业首先要明确业务目标、对接系统、数据范围同步梳理安全、法务、合规、业务部门的各项约束条件。很多安全风险源于前期边界模糊例如未明确客服Agent能否访问客户隐私、外发邮件、修改订单数据未设定高危操作审批规则。核心原则先划定安全边界再对接工具落地业务。第二阶段排查供应链风险搭建AI-BOM台账全面梳理Agent所使用的大模型、插件、服务接口、代码依赖、第三方组件等供应链资源核查组件来源、签名状态、漏洞情况与可信程度同步搭建AI-BOM台账完整记录全链路依赖信息。针对开源组件可借助行业工具评估项目安全性与维护活跃度同时精简冗余依赖减少攻击面。现阶段AI也可反向赋能安全工作利用大模型审计依赖文件合并重复组件提升供应链安全治理效率。第三阶段细化运行规则评估风险爆炸半径将模糊的业务目标转化为清晰、可落地的安全规则明确Agent的允许操作、禁止行为、人工审批触发条件。同时开展爆炸半径评估假设Agent被攻击者控制预判其可访问的数据、调用的工具、影响的业务范围及最大损失。若评估结果超出企业承受范围立即进一步收缩权限从源头控制风险上限。第四阶段多维防御提示注入攻击摒弃单一的提示词约束手段将所有外部自然语言内容判定为不可信数据涵盖用户输入、上传文件、网页内容、邮件、知识库检索结果、工具返回信息等。具体防护手段包括分区隔离系统指令、用户请求与外部内容采用Spotlighting等技术标记不可信内容缩减Agent接触外部未知内容的范围部署分类器与防护模型识别提示注入、越狱、敏感数据外泄、高危工具调用等异常意图。该阶段目标并非彻底杜绝攻击而是阻断攻击向实际违规操作转化。第五阶段严格管控工具访问权限为Agent建立工具白名单仅开放经过安全审核的工具并对单一工具进行能力限制数据库默认只读、邮件默认仅可编辑不可发送、文件工具禁止访问敏感目录。同时增设参数校验机制Agent生成的SQL语句、接口请求、脚本命令等不得直接执行。涉及数据批量导出、资金交易、账号变更、生产环境修改等高危操作必须经过策略引擎二次校验或人工审批。核心逻辑工具调用的决策权归属于安全策略引擎而非AI Agent自身。第六阶段全维度保护身份凭证彻底淘汰硬编码API密钥、配置文件密钥、共享账号密码等高危认证方式。为每个Agent实例分配独立身份与专属短期令牌采用OAuth 2.0、证书认证、云原生密钥托管等方案凭证仅在运行时临时注入禁止写入代码、配置文件与日志。高风险场景搭配硬件绑定凭证与即时权限压缩权限有效时长杜绝凭证被盗用、复用的风险。第七阶段规范长期记忆管理对Agent记忆实行会话隔离、用户隔离、来源分级为所有记忆内容标注来源并做完整性校验设置记忆有效期TTL临时交互、外部来源的内容不长期留存。区分可信内部知识与不可信外部数据差异化管控访问权限。同时搭建版本回滚能力遭遇记忆投毒、记忆漂移时可快速恢复至安全状态而非全盘清空系统。第八阶段建立量化指标持续监测运营安全建设并非上线即终结企业需要设定核心监测指标持续观测Agent运行状态。重点关注两大指标驻留时间dwell time即异常发生到安全人员察觉的时长AI加速攻击背景下该指标越短越好覆盖率coverage即告警事件中实际被核查、处置的比例。此外还要监测工具使用习惯、访问模式、决策逻辑是否出现异常高合规场景需保障Agent操作可解释、可溯源杜绝“黑盒运行”。五、Agentic SOAR适配AI时代的安全运营体系AI Agent的普及也倒逼安全运营体系升级。当下攻击者同样会借助AI实现快速扫描、漏洞挖掘、漏洞利用、横向渗透传统安全运营中心SOC/SOAR依赖人工分析、研判、处置的模式响应速度已跟不上AI攻击节奏。对此Anthropic提出Agentic SOAR理念利用安全类AI Agent承担前置工作自动读取告警、关联日志、追溯事件、梳理证据链并生成初步研判将高价值、需要人工决策的告警推送至安全分析师。隔离核心系统、吊销凭证、对外披露等关键操作仍由人类掌控。需要特别强调的是防护类安全Agent同样要遵守零信任规则配备独立身份、最小权限、全链路审计与人工兜底机制。一旦防御型Agent被攻陷若缺乏约束攻击者将获得更强的系统管控权限引发更大范围的安全灾难。六、框架核心解读重构AI时代的信任逻辑这份零信任框架的深层意义在于明确了AI Agent已成为企业全新的数字化执行主体。它既不等同于人类用户也区别于传统后台服务具备自主理解、规划、执行、协作的综合能力这既是智能化转型的价值所在也是安全风险的根源。由此可见AI Agent安全早已超越提示词攻防、内容风控的范畴升级为企业整体安全架构的重构。企业需遵循七大准则每个Agent拥有独立身份、每次访问全程验证、每款工具严格管控、每项权限最小化配置、每段记忆规范化治理、每一次行为可观测审计、每一起异常可快速响应处置。零信任落地AI Agent并非拒绝使用智能化工具而是不盲目信任AI的自主行为。AI Agent的智能化、自主性越强就越需要清晰的安全边界与完善的管控体系。未来AI安全的竞争不再单纯比拼大模型能力而是比拼身份体系、工具治理、权限管控、记忆管理、智能安全运营等安全基础设施的成熟度。率先完成这套体系搭建的企业才能安全、稳定地将AI Agent落地至生产业务中。快快云安全专家看法作为深耕云安全与AI安全领域的专业服务商快快云安全快快网络旗下安全品牌网络安全专家结合多年云上攻防实战经验与AI安全运营落地案例对本次Anthropic发布的AI Agent零信任框架给出了深度解读与落地建议AI Agent是数字化转型的重要抓手而零信任则是AI Agent规模化落地的“安全基石”。未来AI与安全将深度融合、双向赋能一方面用零信任体系约束AI Agent的行为规避智能化带来的安全风险另一方面借助AI技术提升安全运营、风险检测、供应链治理的效率。对于国内企业而言当下应尽早参考这套成熟框架结合自身业务场景、数据等级、合规要求规划安全建设路径在释放AI价值的同时全方位守护企业数据与业务安全实现智能化与安全的协同发展。