LCGuard:面向多智能体系统安全的键值共享隐层通信防护机制

发布时间:2026/5/23 18:33:59

LCGuard:面向多智能体系统安全的键值共享隐层通信防护机制 LCGuard面向多智能体系统安全的键值共享隐层通信防护机制LCGuard 是一个创新框架旨在通过安全地转换和分享 Transformer 的 Key-Value (KV) 缓存有效规制多智能体Multi-Agent大语言模型LLM系统中的敏感信息流。它解决了当前利用 KV 缓存进行传递的系统性安全漏洞。原始内容来自 https://arxiv.org/html/2605.22786v1 核心问题与技术痛点1. 潜层通信的必要性与挑战背景:多智能体系统正从低效的文本通信转向使用 KV 缓存 (Ki,Vi\mathbf{K}_i, \mathbf{V}_iKi​,Vi​) 进行潜层通信。痛点:虽然高效KV 缓存本质上是高维度、语义密集的表征当被分享时其敏感信息 (si\mathbf{s}_isi​) 会无意识地在整个通道中传播难以通过传统加密手段阻止重建。2. 威胁模型重建式泄露 (Reconstruction-Based Leakage)攻击目标:攻击者通过观察到的通信流Mobs\mathbf{\mathcal{M}}_{\mathrm{obs}}Mobs​训练一个解码器A\mathcal{A}A来最小化重建损失Lrec(i)\mathcal{L}_{\mathrm{rec}}^{(i)}Lrec(i)​即Lrec(i)(Mobs)E[−log⁡p(si∣Mobs)]\mathcal{L}_{\mathrm{rec}}^{(i)}(\mathbf{\mathcal{M}}_{\mathrm{obs}})\mathbb{E}\left[-\log p(\mathbf{s}_{i}\mid\mathbf{\mathcal{M}}_{\mathrm{obs}})\right]Lrec(i)​(Mobs​)E[−logp(si​∣Mobs​)]安全指标:LCGuard 的核心衡量指标是泄露量 (Leakage)它代表了原始信息与可重建信息的差异必须使其远低于安全阈值τ\tauτ。️ LCGuard 核心方法论Minimax GuardLCGuard 机制基于一个联合优化的对抗性学习框架在效用Utility和隐私Privacy的 Minimax 极小极大博弈中寻找均衡点。1. 前端处理转换函数mijgij(Ki,Vi)\mathbf{m}_{ij}g_{ij}(\mathbf{K}_i,\mathbf{V}_i)mij​gij​(Ki​,Vi​)通信对象mij\mathbf{m}_{ij}mij​不是原始的缓存而是经过如下残差瓶颈结构经过转换确保只传递任务所需的、不可逆的语义信息Key 转换:KisanKiW2Kσ(W1KLN(Ki))\mathbf{K}_i^{\mathrm{san}} \mathbf{K}_i W_2^K \sigma(W_1^K \mathrm{LN}(\mathbf{K}_i))Kisan​Ki​W2K​σ(W1K​LN(Ki​))Value 转换:VisanViW2Vσ(W1VLN(Vi))\mathbf{V}_i^{\mathrm{san}} \mathbf{V}_i W_2^V \sigma(W_1^V \mathrm{LN}(\mathbf{V}_i))Visan​Vi​W2V​σ(W1V​LN(Vi​))工程意义:残差连接Ki…\mathbf{K}_i \dotsKi​…保留了原始上下文的语义流畅性而σ(W1LN(Ki))\sigma(W_1 \mathrm{LN}(\mathbf{K}_i))σ(W1​LN(Ki​))构成了一个低维的瓶颈实现了信息剥离。2. 后端优化联合 Minimax 目标LCGuard 的训练目标等式如下体现了其对抗性本质min⁡{ϕi}max⁡{ψi}β∑i1NLrec(i)(Mobs)⏟对抗优化最大化重建损失Ltask(M)⏟任务优化最小化任务损失\min_{\{\mathbf{\phi}_i\}}\max_{\{\mathbf{\psi}_i\}}\quad \underbrace{\beta \sum_{i1}^{N}\mathcal{L}_{\mathrm{rec}}^{(i)}(\mathbf{\mathcal{M}}_{\mathrm{obs}})}_{\text{对抗优化最大化重建损失}} \underbrace{\mathcal{L}_{\mathrm{task}}(\mathbf{\mathcal{M}})}_{\text{任务优化最小化任务损失}}{ϕi​}min​{ψi​}max​对抗优化最大化重建损失βi1∑N​Lrec(i)​(Mobs​)​​任务优化最小化任务损失Ltask​(M)​​β\betaβ参数 (Tradeoff Gate):β∈[0,1]\beta \in [0, 1]β∈[0,1]是核心平衡参数。它决定了系统在服从隐私要求偏向max⁡\maxmax和保持任务性能偏向min⁡\minmin之间的倾向性。 严格的实验Workflow Resources为了确保 LCGuard 的可复用性和严谨性实验流程被分解为以下三阶段每一步都要求高度的精确性和中间结果的验证。 实验步骤 1数据集和攻击载荷构建输入:标准 Multi-Agent Dialogue Corpus包含NNN个智能体的对话序列。关键动作:识别并注入包含目标敏感信息si\mathbf{s}_isi​的标记点Injection Points。产出验证点:必须输出一个包含(对话序列,{s1,…,sN})( \text{对话序列}, \{ \mathbf{s}_1, \dots, \mathbf{s}_N \} )(对话序列,{s1​,…,sN​})的结构化 JSON 格式的训练数据集。 实验步骤 2模型训练与交替优化流程 (The Training Loop)这是一个迭代过程每次优化的重点都是提高安全性和性能的一致性。A-Phase (Communication Optimization):优化通信权重{ϕi}\{\mathbf{\phi}_i\}{ϕi​}模型学习如何将K,V\mathbf{K}, \mathbf{V}K,V转化为m\mathbf{m}m使得Ltask\mathcal{L}_{\mathrm{task}}Ltask​最小可行理论上实现最低损失。B-Phase (Adversarial Optimization):攻击者模型A\mathcal{A}A训练目标是利用当前的m\mathbf{m}m进行最大化重建si\mathbf{s}_isi​。收敛控制:持续迭代直到两个目标min⁡Ltask\min \mathcal{L}_{\mathrm{task}}minLtask​和max⁡Lrec\max \mathcal{L}_{\mathrm{rec}}maxLrec​之间的梯度差达到稳定状态。 实验步骤 3性能评测与指标验证这是一个关键的验证环节不能依赖模型自身报告的 Loss 值。安全验证 (Privacy):使用独立且未参与训练的Aeval\mathcal{A}_{\text{eval}}Aeval​模型测量Leakageactual\text{Leakage}_{\text{actual}}Leakageactual​。效用验证 (Utility):在 Clean Test Set 上运行系统记录Ltask\mathcal{L}_{\mathrm{task}}Ltask​。结果门槛:必须同时满足[泄露量≤τ\le \tau≤τ]和[性能衰减ΔP1%\Delta P 1\%ΔP1%]的硬性约束。 资源与代码流转 (Deliverables)核心实现文件:lcguard_minimax_trainer.py\texttt{lcguard\_minimax\_trainer.py}lcguard_minimax_trainer.py: (Python, PyTorch) 包含整个 A/B 阶段的交替优化逻辑。data_loader.py\texttt{data\_loader.py}data_loader.py: 处理数据集的 PyTorch DataLoader负责注入和校验攻击载荷。链接资源:Code Repository:[GitHub Link for LCGuard repo] (实际工作目录/模型权重)数据集:[Public Corpus Link] (原始训练数据和攻击载荷集)✅ 结论LCGuard 通过引入一套机制化的、对抗性的通信转换模块解决了当前潜层通信中的信息安全鸿沟。其核心贡献是将安全评估从“事后审计”提升到了“训练过程中的可优化目标”实现了前所未有的安全-效用平衡。

相关新闻