检索增强生成RAG基础架构与手动模拟

发布时间:2026/5/20 2:14:05

检索增强生成RAG基础架构与手动模拟 检索增强生成RAG基础什么是RAG?检索增强生成(RAG)是指对大型语言模型输出进行优化使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在LLM本就强大的功能基础上RAG将其扩展为能访问特定领域或组织的内部知识库所有都无需重新训练模型。是一种经济高效地改进LM输出的方法让它在各种情境下都能保持相关性、准确性和实用性。简单理解:RAG就是从外部先检索对应的知识内容和用户的提问一起构成Prompt再让LLM生成内容。如果为前面开发的聊天机器人架构添加上RAG模块更新后的运行流程如下:RAG的重要性及优点我们可以将LLM 看成是一个过于热情的员工而且这个员工拒绝了解任何时事但是他总是会很自信地回答每一个问题更不幸的是这个员工回答态度非常好内容非常流畅一般情况下还很难看出是真是假!所以单纯利用LLM进行开发存在非常大的缺陷LLM的训练数据是静态的这意味着LLM掌握的知识是有时间限制的对于新知识不了解。当用户需要特定或者即时的数据时LLM 往往提供通用或者过时的数据。LLM回答的内容可能是从非权威来源创建响应。由于术语混淆不同的培训来源使用相同的术语来谈论不同的事情因此会产生不确定的响应。对比其他解决LLM幻觉的方案RAG带来的好处也非常明显:经济高效:预训练和微调模型的成本很高相比之下RAG是一种经济高效将新输入引入LLM的方案。信息即时:使用RAG可以为LLM提供最新的研究、统计数据或新闻确保数据的即时性。增强用户信任度:RAG允许LLM通过来源归属来呈现准确的信息。输出可以包括对来源的引文或引用。如果需要进一步说明或更详细的信息用户也可以自己查找源文档。这可以增加对您的生成式人工智能解决方案的信任和信心开发人员拥有更多控制权:借助RAG开发人员可以更高效地测试和改进他们的聊天应用程序。他们可以控制和更改LLM的信息来源以适应不断变化的需求或跨职能使用。开发人员还可以将敏感信息的检索限制在不同的授权级别内并确保LM生成适当的响应。此外如果LLM针对特定问题引用了错误的信息来源他们还可以进行故障排除并进行修复。组织可以更自信地为更广泛的应用程序实施生成式人工智能技术。ChatGPT手动模拟 RAG运行流程人类与大语言模型的主要交接方式就是通过 Prompt所以通过 Playground/ChatGPT 手动模拟 RAG 的过程其实也非常简单使用用户的提问 query 进行搜索得到搜索相关的内容将搜索的内容与预设的 Prompt 模板、用户的 query 拼接成最终提示词传递给大语言模型即可模拟最基础的 RAG 运行流程。例如用户提问: “公司有销售什么产品么”会触发一下流程:① 调用 检索器 并传递 公司有销售什么产品么? 作为搜索语句进行检索得到对应文档将这些文档整理合并得到对应的文本输出:1.潮汕手工牛肉丸 产品名称潮汕手工牛肉丸 电商网址:shop.example.com/beefballs 产品描述潮汕手工牛肉丸选用优质牛肉纯手工捶打制作口感 Q 弹有嚼劲。全程无添加防腐剂和人工色素确保天然健康适合家庭火锅、煮汤等多种烹饪方式。 原材料优质牛肉、生姜、盐、胡椒粉 制作工艺传统手工捶打 口感:Q 弹鲜美肉质紧实 净重:500克/袋、1000克/袋 保质期:6个月冷冻保存 发货方式顺丰冷链配送确保新鲜 物流信息:24小时内发货预计2-3天到货 推荐菜系:牛肉丸火锅搭配蔬菜、菌类煮至牛肉丸浮起即可享用。 牛肉丸煮汤与青菜、萝卜等食材同煮营养丰富。 价格500克:68元/袋、1000克:128元/袋2.潮汕猪肉卷 产品名称潮汕猪肉卷 电商网址shop.example.com/porkroll 产品描述潮汕猪肉卷采用猪后腿肉为主要原料配以特制香料腌制手工卷制而成。口感鲜嫩多汁香味四溢是潮汕传统名菜之一。 原材料猪后腿肉、香料、盐、糖 制作工艺精细切割、手工卷制 口感鲜嫩多汁咸香可口 净重400克/袋、800克/袋 保质期3个月冷冻保存 发货方式顺丰冷链配送确保新鲜 物流信息24小时内发货预计2-3天到货 推荐菜系 猪肉卷涮锅切片后涮煮口感爽脆 猪肉卷炒菜切块后与蔬菜同炒风味更佳 价格400克58元/袋、800克108元/袋3.潮汕三宝酱油、甜醋、虾酱 产品名称潮汕三宝 电商网址shop.example.com/chaoshanthree 产品描述潮汕三宝包含酱油、甜醋和虾酱。酱油由大豆、麦子自然发酵而成甜醋以糯米酿制虾酱选用新鲜海虾发酵是潮汕菜肴必备调味品。 酱油大豆、麦子自然发酵500ml/瓶 甜醋糯米酿制500ml/瓶 虾酱新鲜海虾发酵200克/瓶 保质期酱油和甜醋12个月虾酱6个月 发货方式顺丰配送确保完好 物流信息24小时内发货预计2-3天到货 推荐菜系 酱油适合调味、蘸料、炒菜。 甜醋用于凉拌菜、蘸料 虾酱适合炒菜、做蘸料 价格128元/套含酱油、甜醋、虾酱各一瓶4.潮汕鸭母捻 产品名称潮汕鸭母捻 电商网址shop.example.com/duckegg 产品描述潮汕鸭母捻是一种传统甜点使用糯米粉制作内馅有花生、芝麻、红豆等多种口味外皮软糯汤底清甜。 原材料糯米粉、花生、芝麻、红豆、糖 制作工艺手工包制 口感软糯香甜馅料丰富 净重500克/袋 保质期3个月冷冻保存 发货方式顺丰冷链配送确保新鲜 物流信息24小时内发货预计2-3天到货 推荐菜系 甜汤加入红糖水煮沸香甜可口。 咸汤搭配咸菜、肉片别有风味。 价格45元/袋② 接下来将用户的输入 query 和检索得到的文档文本 context 合并到预设的提示模板中如下你是一个由 OpenAI 开发的聊天机器人善于根据上下文内容帮助用户解决问题回复的内容尽可能简洁如果需要用户提供额外的信息请进行引导如果不知道就说不知道。context{context}/context用户的提问是{query}③将构建好的提示词传递给大语言模型得到对应的输出内容如下公司销售以下产品1.潮汕手工牛肉丸2.潮汕猪肉卷3.潮汕三宝酱油、甜醋、虾酱4.潮汕鸭母捻 每种产品都有详细的描叙价格和购买信息这样就可以完成一个手动RAG的过程模拟实际在代码中无论多么复杂的RAG无论如何进行RAG优化本质上都是执行外包检索然后对外部检索的内容和用户原始提问合并成最终Prompt再向大语言模型发起提问最终得到对应的内容。

相关新闻