
1. 为什么要分三道防线AIGC 应用的风险不是只发生在模型输出之后。一次风险请求可能从输入端开始通过多轮上下文和工具调用触发在输出端变成可见内容最后在运营阶段通过投诉、舆情和复核暴露出来。推荐的安全链路如下用户请求 - 输入安全检测 - 模型/RAG/Agent - 输出内容审核 - 发布/返回 | 日志、复核、样本回流、策略迭代2. 第一道防线输入安全输入安全解决的是“风险是否会被触发”。需要重点识别Prompt Injection诱导模型忽略系统指令或泄露上下文。Jailbreak通过角色扮演、编码、翻译、多轮追问绕过限制。高风险意图违法、欺诈、低俗、暴恐、隐私获取、未成年人不适。RAG 风险恶意文档、污染知识片段、上下文越权。Agent 风险工具调用越权、错误执行、敏感操作触发。输入侧不一定直接拦截所有请求。更合理的做法是按风险等级处理低风险放行中风险安全代答或限制能力高风险拦截或转人工。3. 第二道防线输出审核输出审核解决的是“风险是否被生成并返回”。输出侧建议覆盖内容类型主要风险文本违法违规、虚假误导、诈骗导流、隐私泄露图片低俗、暴恐、未成年人不适、IP 侵权音频敏感语音、诱导话术、违规合成视频深度伪造、低俗暴力、侵权素材代码恶意脚本、漏洞利用、越权操作建议输出审核不能只做关键词。AIGC 内容有上下文依赖、变体表达和跨模态组合需要语义识别、风险标签和场景化策略。4. 第三道防线运营闭环运营闭环解决的是“系统能否持续变好”。上线后需要沉淀请求日志输入、输出、用户、设备、IP、模型、策略版本。风险标签输入风险、输出风险、账号风险、业务风险。处置动作放行、拦截、代答、降级、转人工。人工结果复核、申诉、误杀、漏放、备注原因。策略效果命中率、误杀率、漏放率、投诉率、舆情事件。没有运营闭环输入和输出防线会逐渐失效因为攻击样本和业务场景一直在变化。5. 工程接入清单接入前建议准备样本集正常样本、违规样本、攻击样本、多模态样本、账号异常样本。风险策略哪些放行哪些拦截哪些安全代答哪些转人工。日志规范trace_id、user_id、risk_label、action、review_result。指标口径准确率、召回率、误杀率、漏放率、P99 延迟。灰度机制先在高风险场景灰度再逐步扩大覆盖范围。数美 AIGC 安全围栏这类方案适合把三道防线放在同一套体系中验证输入端看攻击识别输出端看多模态审核运营端看复核、回流和策略迭代。FAQQ输入安全和输出审核有什么区别A输入安全判断请求意图和攻击路径输出审核判断生成结果是否合规。前者防触发后者防返回。Q运营闭环是不是可选项A不是。生产环境中误杀漏放不可避免运营闭环决定系统能否持续纠偏。Q三道防线的 POC 怎么测A分别测试攻击输入识别、生成内容审核、账号异常样本、日志追溯、人工复核和样本回流能力。