什么是RAG？-尧图网站设计

一、什么是 RAG你有没有过这种感觉。问同事一个问题他 5 秒就能答出来。你转头问 ChatGPT它开始一本正经地胡说八道。我有。去年帮一个朋友看他们的客服机器人项目上线仨月用户反馈里出现最高频的词是答非所问。技术团队排查了一圈发现问题根本不在模型在于那套基于关键词匹配的检索逻辑——用户说我的订单卡在发货了系统匹配到的是发货时效那套 FAQ答的完全是两码事。后来他们换了思路上了一套 RAG 系统。效果怎么说呢据他们说满意率从 30% 多直接跳到了 70% 以上。这玩意儿到底是怎么回事什么是 RAGRAG全称Retrieval-Augmented Generation翻译过来叫检索增强生成。这名字听着唬人但逻辑一句话就能说清楚先查资料再回答。传统的大模型是怎么工作的你问它一个问题它靠记忆——也就是训练时塞进去的那些参数——来生成答案。问题在于它的记忆是有截止日期的而且你公司内部那些私有数据、业务文档它压根没见过。RAG 的做法是给大模型接一个外脑。用户提问时先从这个外脑里检索出跟问题最相关的内容再把这些内容连同问题一起交给大模型让它看着这些材料来回答。这就是为什么很多人把 RAG 叫做开卷考试——不是让模型闭着眼睛瞎编而是让它先查资料再基于查到的内容生成答案。RAG 这个概念最早是 Meta 在 2020 年提出的。但说实话真正火起来是这两年的事。原因是多方面的大模型能力上来了向量数据库成熟了企业级需求也爆发了。大家发现光靠 Prompt Engineering 或者微调很多场景还是搞不定RAG 成了一条绕不开的路。它是怎么工作的RAG 的工作流程分两个阶段索引和检索生成。索引阶段建图书馆说起来也简单就是把文档扔进系统里让它做好准备等用户来问。这个过程通常包括几个步骤。第一步清洗文档。原始文档里有很多噪声HTML 标签、特殊字符、乱码这些都得先去掉。不然 garbage ingarbage out后面的向量表达也会受影响。第二步切块。文档不能一股脑塞进去太长了。一个 200 页的 PDF一股脑转成一段向量检索的时候精度会非常差。一般会用文本分割器Text Splitter把文档切成小片段Chunk每个片段单独算一个向量存进向量数据库。切成多大、要不要有重叠这个得根据实际场景来调没有万能公式。第三步向量化。通过嵌入模型Embedding Model把每个文本片段转换成高维向量。简单理解就是把一段文字翻译成一串数字这串数字代表了这篇文章的语义。语义相近的内容它们对应的向量在数学上也会更接近。这一步是整个 RAG 的地基选什么 embedding 模型直接决定你检索效果的天花板。第四步入库。生成的向量、原始文本、元数据时间戳、来源标签等一起存进向量数据库。Milvus、Faiss、pgvector都是常见的选项。索引过程通常是离线做的比如每天凌晨重建一次或者文档更新时触发增量索引。整个索引阶段你可以理解成在给数据建索引——就像图书馆管理员给每本书贴标签、编目录等读者来查。检索生成阶段回答问题用户发起请求时事情是这样发生的用户的问题先被转换成向量然后在向量数据库里做相似度搜索找出跟问题最相关的 N 个片段。这些片段和问题一起被组装成 Prompt喂给大模型生成最终答案。就这么几步听着不复杂对吧。但实际上这里有好几个坑我踩过简单说一下。一个是分块策略。切太大相关性会稀释切太小上下文容易碎片化。比如你处理一份法律合同如果把甲方责任和不可抗力条款切到了不同的块里用户问不可抗力怎么处理检索出来的内容可能只有不可抗力那一条没有甲方责任相关的上下文答案就不完整。怎么切、切多大没有标准答案得反复调。另一个是检索质量。向量检索看着很美好但 embedding 模型跟你的业务领域是否匹配直接决定召回率。我之前试过一个法律文档的场景用通用 embedding 模型召回来的内容乱七八糟的换了一个专门在法律语料上微调的模型直接好了一倍。选 embedding 模型这件事值得认真对待不是随便挑一个就完事了。还有一个是上下文噪声。有人觉得context window 都 100 万 token 了疯狂往里塞结果模型反而被干扰了答非所问。喂东西这件事从来不是越多越好。RAG 索引阶段流程RAG 的技术演进RAG 不是一成不变的这几年技术方案在快速迭代大致分三个阶段。初级 RAGNaive RAG这是最简单的形态问答流程是索引 → 检索 → 生成。听着挺好但实际用起来问题不少。检索质量不稳定召回的内容经常跟问题八竿子打不着生成结果全靠模型自己圆有时候圆得特别离谱。为什么会这样因为基础的向量检索有一个天然的局限——它只能找到字面上跟问题相似的内容但用户的真实问题和他用的词往往跟文档里写的不是一回事。比如用户问公司年假怎么算但文档标题是员工带薪假期管理制度纯粹靠向量相似度去匹配有时候就是匹配不上。高级 RAGAdvanced RAG所以后来有了高级 RAG在检索前后加了各种优化。检索前对用户的问题做改写Query Rewrite。比如把口语化的问法转换成更精准的检索词或者把复杂问题拆成几个子问题分别检索。这个思路很直接——你问得好检索才能找得准。检索后对召回的结果做重排Rerank。向量检索是第一轮海选找出 Top-K 个候选然后 Rerank 模型把这些候选按跟问题的真实相关性重新排序把最相关的往前挪。这两步做完检索精度能提升一大截。这个阶段的 RAG 是目前生产环境里最常见的。流程相对固定能力也够用搭起来不算太复杂。模块化 RAGModular RAG再往后发展就到了模块化 RAG把整个流程拆成可插拔的模块检索器可以换、生成器可以换、中间加什么路由、融合策略都可以自己编排。听起来很极客对不对确实也是。灵活性拉满了但代价是系统复杂度也跟着上去了。动态路由Routing、查询转换Query Transformation、多路融合Fusion这些能力可以根据具体场景自由组合。比如同样的一个问题你可以同时走关键词检索和向量检索然后把两路结果做融合召回率会比单路好很多。说真的如果不是做特别复杂的场景高级 RAG 已经够用了。模块化听着很美好但先把基础打扎实比什么都重要。RAG 的技术架构演进.png什么场景适合用 RAG我自己的判断标准就一条答案依赖外部资料且这些资料会变或者很庞杂。符合这个条件的场景RAG 基本都能发挥价值。企业内部知识库是最典型的。员工查报销流程、年假余额、请假制度以前要么翻 Wiki 翻半天要么直接抓个同事问。现在对着机器人说一句我上个月有几天考勤异常它直接拉 HR 系统的数据给你答还能告诉你出处在哪份文件里。爽不爽智能客服也是。关键词匹配搞不定的长尾问题RAG 能兜住。产品文档更新了索引重建就行不用改代码、不用重新训模型。三个月的 FAQ、用户历史工单、产品手册一股脑灌进去客服能回答的范围直接上一个台阶。研发和运维场景也很好使。代码库文档、接口说明、告警处理手册扔进去工程师可以直接用自然语言问这个错误码是什么意思比翻 Confluence 快多了。我自己现在查内部接口文档已经不怎么用搜索了直接问。医疗和法律领域RAG 目前更多是辅助定位和知识查询不做最终决策。原因很简单——幻觉问题还没彻底解决这些领域一分钱的误差都不能有。美国有医院因为 AI 误读检验报告导致误诊的新闻看得我后背发凉。辅助决策可以最终拍板还得是人。优势与局限先说优势。知识更新快。微调一次要花多少钱我就不说了光等模型跑完就得好几天。RAG 换个文档、更新一下索引几秒钟的事。即插即用这个优势在业务变化快的场景里太重要了。可追溯。每个答案都附带着原始出处用户点进去能直接看原文。这在大模型应用里太重要了——出了问题你能追模型说错了用户能自己核实。相比之下闭着眼睛生成的答案用户除了选择相信没有别的办法。权限控制方便。在检索层做租户隔离比在模型层做容易得多。你不想让 A 公司的人看到 B 公司的数据RAG 的架构天然支持。但如果你把数据微调进模型里那数据隔离这件事就变得非常头疼了。再说局限。检索是瓶颈。Garbage in, garbage out这话在 RAG 系统里体现得尤其明显。embedding 模型选错了、分块策略不对召回的内容跟问题八竿子打不着再强的大模型也救不回来。RAG 的效果上限往往是由检索质量决定的不是生成质量。延迟和成本。一次完整的 RAG 请求要过好几步问题改写、向量化、相似度搜索、重排序、上下文组装、LLM 生成。每一步都耗时Token 消耗也比普通对话多。线上服务的话这两块都得仔细优化。不是万能药。有些场景靠 Prompt Engineering 就够了不必非得上 RAG。我的建议是先问自己一个问题——这个问题用纯 Prompt 能答好吗如果能先别折腾 RAG。把 RAG 留给真正需要它的场景。传统产品经理正在成为下个被淘汰的“传统岗位”。过去画原型、写 PRD、跟进度的“传统技能包”在AI时代正迅速贬值。63% 的企业转型做 AI 产品当下的问题不再是“要不要学 AI ”而是“如何构建 AI 产品”。前段时间还跟字节、腾讯的资深 AI 产品经理沟通他们反馈在大量招人只要有 AI 相关的项目经验基本都能拿到面试机会而且领导很舍得给钱涨薪 40-60% 很正常01接下来的产品人得卷AI能力了如今AI大火行业极速发展的背后懂AI 产品人才却严重稀缺。这不是要你转技术岗而是要掌握构建 AI 产品的核心方法如何将你的领域知识转化为 AI 产品的核心竞争力如何用 AI 技术实现你的产品需求如何设计真正懂用户的 AI 交互体验……懂AI就是产品经理的“救命稻草”风口之下与其焦虑被行业淘汰不如先人一步享受AI技术带来的红利我把AI产品经理的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】不限年龄不限岗位没有代码基础也能学现在扫码完课还送《AI产品面试题库》《AI大模型应用案例集》02掌握技术实战快速转型想成为一名卓越的AI大模型产品经理需要从技术、到项目实战的全方位转型指南**1**AI产品应用原理解析产品经理也能听懂对于产品经理来说如果你不懂技术做不了业务和AI大模型技术衔接、定义不了数据需求是没法完整的落地一个产品的本次课程专门面向产品经理人群解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理解析AI产品应用技术积累大模型能力简单易懂不需要会代码小白也能掌握大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等2超全行业案例解析课程详细讲解现阶段大模型在各个行业和领域的应用现状包括零售与电商、教育、医疗、泛娱乐、法律等等10大行业详细讲解案例的思路、应用场景以及背后的技术原理、核心技术揭秘各个行业、场景的真实现状和未来产品的发展与机遇可以说讲解完一个案例就能积累一个AI产品实践的经验课程中所涉及到的实战项目都可以直接在自己的工作中使用让自己的产品/项目有可借鉴的成功案例3AI产品经理求职专项辅导课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词掌握AI PM高频面试题型与回答框架展示 AI 相关能力的关键技巧Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验To B类AI产品经理突出“行业理解技术落地商业闭环”能力的简历结构设计展示项目成果从客户需求洞察到技术方案设计展现端到产品思维如何评估To B AI产品的可行性、客户付费意愿与实施成本To C类AI产品经理拆解头部公司岗位JD将过往尽力转化为AI产品叙事逻辑从行业趋势、产品设计题、案例分析数据分析题、技术理解边界等全流程辅导面试避免无效海投、锁定最适合的AI产品岗位03本次课程全程直播讲解能直接对话大佬和专业助教不懂就问超详细的案例小白也能轻松get完课后还赠送《AI产品经理面试题库》、《AI大模型应用案例集》不断更新中……适合人群想转型AI产品经理、AI项目管理专家、AI产品解决方案等岗位想进行AI产品创业的创业者想成为制作AI产品的程序员想利用AI解决企业问题的管理岗想在AI方向寻找就业方向的毕业生AI方向前景广阔、待遇好目前很多产品人已经通过完整学习拿到大厂高薪offer收入嗷嗷涨我把AI产品经理的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

什么是RAG？

相关新闻

KeePass插件生态深度游：除了自动填充，这些‘神器’让密码管理效率翻倍

如何永久保存微信聊天记录？留痕工具完整指南帮你实现数据主权

基于Arduino的智能门锁系统：从硬件选型到代码实现的完整指南

基于Arduino的脚踏PTT按钮制作：解放双手的硬件DIY指南

别再重装系统了！Win11双CUDA环境（11.0和11.7）共存与实战避坑指南

学术研究如何高效利用企业级算力：从FPGA集群到HPC实战指南

技术深度解析：wechat-dump安卓微信消息逆向工程与数据可视化架构

从PCB到三维艺术：Arduino自由形态电路与红外遥控LED灯带制作指南

为低识字人群设计多模态交互系统：图标、语音与情境感知的融合实践

从流体模拟到游戏物理：环量与通量在Unity/Cocos Creator中的实际应用

鸣潮模组终极指南：15+功能全面解锁，5分钟打造个性化游戏体验

告别硬编码！用UE4/UE5的GAS和GameplayTag管理你的技能冷却与互斥

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源