![[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析](http://pic.xiahunao.cn/yaotu/[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析)
A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly1. 核心问题与动机大型语言模型LLM如 ChatGPT、LLaMA 等已彻底改变自然语言处理领域具备深度语言理解、人类似文本生成、情境意识与强大问题解决能力广泛应用于搜寻、客服、翻译、程式码生成、医疗、金融与教育等领域。然而LLM 在安全与隐私领域呈现双刃剑特性一方面可强化安全防护另一方面可能被滥用或暴露自身漏洞。这篇论文的核心动机是系统性探讨 LLM 与安全/隐私的交集回答三个关键研究问题RQRQ1LLM 如何在多领域正面影响安全与隐私对安全社群提供何种优势RQ2使用 LLM 于网路安全领域会产生何种潜在风险与威胁RQ3LLM 本身存在哪些漏洞如何防禦论文作者透过全面文献回顾收集 281 篇相关论文主要集中于 2023 年将内容分类为「The Good」有益应用、「The Bad」攻击性应用与「The Ugly」模型漏洞与防禦。这是首篇全面涵盖正面、负面与内在脆弱性三面向的综述填补先前调查多聚焦单一面向的空白。动机还来自实际案例如 GPT-3 在程式码库中发现远多于传统工具的安全漏洞LLM 在 IEEE SP、NDSS 等顶会上的应用显示其潜力但同时凸显滥用与攻击风险。论文强调随着 LLM 使用者激增ChatGPT 超过 1.8 亿用户系统性理解其安全影响至关重要。2. 结果/成果主要发现与分类论文以结构化方式呈现成果包含图表、表格与量化统计如论文分布趋势。The Good正面影响§4LLM 在安全社群的贡献最显着主要聚焦程式码安全与资料安全/隐私。程式码安全全生命週期涵盖安全编码Secure Coding、测试案例生成TCG、执行监控RE包括漏洞检测、恶意程式检测、修復。示例SVEN 方法提升安全程式码生成成功率TitanFuzz/Fuzz4All 等利用 LLM 提升 fuzzing 复盖率与 bug 发现VulLibGen 快速识别易受攻击函式库PentestGPT 辅助渗透测试。许多研究显示 LLM 优于传统静态分析工具尤其在複杂情境与供应链攻击检测。资料安全与隐私确保资料完整性、保密性、可靠性和可追溯性。应用于异常检测、钓鱼/恶意软体识别、取证、水印技术等。LLM 常在精准度、速度与减少人工介入上胜出。整体发现多数研究证实 LLM 方法优于 SOTAstate-of-the-artLLM 对安全社群的贡献远大于负面影响。The Bad攻击性应用§5LLM 可被用于攻击分为硬体级、OS 级、软体级、网路级与使用者级最盛行32 篇论文。使用者级攻击因 LLM 的人类似推理能力而盛行生成假讯息、社交工程、科学不端行为生成假论文、诈欺工具如 FraudGPT、WormGPT。其他建立恶意软体、网路钓鱼、绕过 CAPTCHA 等。目前 LLM 缺乏 OS/硬体直接存取但未来若开放威胁将大幅放大。The Ugly漏洞与防禦§6将漏洞分为AI 模型固有资料中毒、后门、推断/提取攻击、偏差利用、指令调优攻击如 Jailbreaking/Prompt Injection与非 AI 固有远端程式码执行、侧通道、供应链。防禦策略涵盖训练阶段语料清洗去毒、去偏、见解识别、去重、优化方法对抗训练、安全指令调优、差分隐私。推论阶段指令预处理、恶意检测、生成后处理多数投票、自批判。关键发现模型/参数提取攻击研究有限多为理论受规模与机密性限制模型架构对安全的影响研究稀少安全指令调优需更多探索。3. 分析与洞见正面主导论文量化显示「Good」论文最多反映研究社群倾向利用 LLM 强化防禦而非攻击。这与 LLM 的语言理解与生成优势高度相关尤其在程式码与资料领域超越传统方法。使用者级风险突出LLM 的人类似能力放大社交工程与内容生成攻击凸显「对齐」alignment挑战。双重威胁许多攻击同时影响安全与隐私如训练资料提取洩露 PII。方法论洞见LLM 可替换传统 ML 方法于安全任务传统 ML 攻击/防禦可适配 LLM但需调整如因规模与黑盒特性。人类努力如社交工程可被 LLM 取代带来效率但也增加滥用风险。边缘考量LLM 在教育、政策与法规的角色如 CTF 练习、隐私法规影响偏差与公平性问题的社会影响未来若 LLM 获得更多系统存取权威胁演化。限制论文主要回顾至 2023 年底领域快速发展部分防禦计算成本高实务部署中需平衡效能与安全。4. 结论与未来方向论文结论强调 LLM 兼具强化与危害网路安全的潜力呼吁平衡创新与风险管理。贡献包括首创三面向全面综述以及多项实证发现如 Good Bad、使用者级攻击主导。未来方向建议将 LLM 应用于更多 ML 基础的安全任务并与 SOTA 比较。探索 LLM 取代人类努力的领域如传统需人工的防禦任务。适配传统 ML 攻防至 LLM 特定情境解决 LLM 独有挑战如巨量参数、机密性。加强模型架构安全研究、安全指令调优与 PETs隐私增强技术整合。跨领域合作关注教育、法律与伦理影响。文章连结arXiv 预印本推荐阅读完整 PDFhttps://arxiv.org/abs/2312.02003或直接 PDFhttps://arxiv.org/pdf/2312.02003.pdf已发表版本High-Confidence Computing 期刊2024 年DOI: 10.1016/j.hcc.2024.100211ScienceDirect