
在经历了清洗、切分、检索、重排这一路打怪升级后我们终于把最相关的 5 条“参考资料Chunk”精准地放在了大模型LLM的面前。很多新手走到这一步就直接发一个简单的 Prompt 给大模型“根据以下资料回答用户问题。”如果你只做到这里你的系统依然是个“玩具”。因为大模型天生有一种**“讨好型人格”**——如果资料里没有答案它会忍不住用自己肚子里的旧知识去编造一个答案来满足你。在企业级 RAG 应用中生成阶段Generation的核心目标只有一个极端的克制与严谨。本篇我们将学习如何给大模型戴上“紧箍咒”让它做到不编造、懂拒答、字字有出处。1. 证据优先Evidence First打断它的“自大”大模型脑子里装了整个互联网的知识但现在我们在做企业内部问答我们不需要它原本的知识只需要它扮演一个**“阅读理解器”**。错误的做法让它自己发挥。正确的做法在 System Prompt 中严厉地警告它**“证据优先”**。“你是一个严谨的企业知识库助手。你的所有回答必须且只能基于我提供的 参考资料中的信息。如果 中没有提及相关内容你绝不能使用你的内部知识去编造。”这就像考试时给它规定“只能看发给你的小抄绝不能自己背书哪怕你知道答案”2. 拒答策略Refusal学会说“我不知道”这是让大模型最难受的一点。当用户问“张三的工资是多少”而检索回来的资料只有“张三是开发部的员工”时大模型经常会顺口编一句“张三的工资是 20000 元”。一个工业级的 RAG 系统评价其好坏的指标不是“它能回答多少问题”而是**“它能正确地拒绝多少不知道的问题”**。如何让它拒答在 Prompt 里给它一条明确的“退路”“如果参考资料不足以回答用户的问题或者资料完全无关你必须直接回答‘抱歉知识库中没有检索到与该问题相关的信息。’不要尝试猜测或提供部分不确定的答案。”加上这句咒语后系统的幻觉率通常会暴降 80%。3. 证据链Chain of Evidence不要抛出孤立的结论当用户问一个复杂问题比如“入职满一年的员工请病假扣钱吗”答案可能散落在资料 A病假规定和资料 B薪资扣除办法里。如果我们只让大模型输出最终的“是”或“否”人类很难信任它。最佳实践是要求大模型输出证据链类似于数学题的解题步骤先陈述从资料 A 提取的事实 1。再陈述从资料 B 提取的事实 2。最后得出结论。例如“根据资料[1]《休假制度》入职满一年的员工每年有 3 天带薪病假。根据资料[2]《薪资管理办法》带薪病假期间不扣除基本工资。因此结论是在 3 天额度内请病假不会扣钱。”这种结构让用户能一眼看懂 AI 的推理逻辑极大增强了信任感。4. 引用片段Citations防幻觉的终极武器在企业里员工绝不会轻易相信 AI 总结的一段话除非你能提供原文的链接让他自己点进去看。**引用Citations**就是强迫大模型在生成的每一句话后面打上类似论文的角标[1]。要做到完美引用我们需要把上一篇提到的**元数据Metadata**喂给模型并要求它严格按照格式输出。5. 本篇产出带引用的回答格式规范Prompt 模板下面是一套经过工业界反复验证的“RAG 生成专用 Prompt 模板”。它将“证据优先”、“拒答”、“证据链”和“引用”完美结合你可以直接复制到你的项目里使用。# System Prompt 你是一个严谨的企业知识库问答助手。你的任务是根据提供的【参考资料】来回答用户的【问题】。 ## 核心原则必须严格遵守 1. **绝对忠于资料**你的回答必须100%基于【参考资料】中提供的信息。严禁使用你自己的内部知识。 2. **严禁编造**如果【参考资料】中没有包含回答问题所需的信息你必须回复“抱歉知识库中没有检索到与该问题相关的信息。” 3. **强制引用**你的每一句结论性陈述都必须在句末使用 [资料X] 的格式标注信息来源。 4. **呈现证据链**对于复杂问题请先列出提取到的事实再给出最终结论。 ## 【参考资料】输入格式 context [资料1] 标题2024员工休假制度 来源链接https://wiki/leave 内容入职满一年的员工每年享有 5 天年假。 [资料2] 标题婚假补充规定 来源链接https://wiki/marriage 内容晚婚假已取消目前法定婚假为 3 天。 /context ## 输出格式要求 请严格按照以下 Markdown 格式输出你的回答 ### 结论与分析 在这里写出你的分析过程和结论每句话后面必须带上引用角标。例如根据休假规定员工每年有 5 天年假[资料1]。 ### 参考来源 在这里列出你在回答中实际用到的资料链接如果没有用到则不列 - [1] [2024员工休假制度](https://wiki/leave) - [2] [婚假补充规定](https://wiki/marriage) --- 用户问题{{user_query}} 请开始你的回答。为什么这套 Prompt 这么好用自带边界它明确告诉 AI不知道就说不知道极大地压制了幻觉。强制溯源底部的 参考来源区域强迫 AI 把元数据里的标题和链接提取出来变成可点击的超链接。用户对答案有疑问点一下就能跳到原网页去核实。防背锅加上引用后就算资料本身写错了责任也在于“知识库里的旧资料没更新”而不是“AI 瞎编”。这在企业落地时是推卸…哦不是厘清责任的重要机制总结与复盘生成Generation不是随性发挥而是戴着镣铐跳舞。记住四大法宝证据优先禁绝私货、敢于拒答不盲目讨好、构建证据链逻辑透明、强制引用原文自证。有了这套生成规范你的 RAG 系统就不再是一个“聊天机器人”而是一个严谨、可靠的“数字资料员”。下一步路线提示到现在为止我们处理的都是“大段的文本文字”。但企业里还有大量数据是存在 Excel 表格、或者 MySQL 数据库里的。如果用户问“把一季度的销售额按部门汇总给我。” 我们的 RAG 系统还能靠“找两句话拼在一起”来解决吗绝对不行下一篇我们将进入 RAG 的高阶领域《结构化数据表格/JSON/数据库与“可计算答案”》。