
本文深入探讨了RAG检索增强生成技术的核心环节包括文档处理、数据召回和增强生成。作者指出尽管RAG看似简单但要做好却十分困难尤其是在文档处理和数据召回阶段。文章详细分析了文档处理的难点如多种文档格式、复杂内容结构等并提出了相应的优化方案。同时还讨论了数据召回和增强生成的重要性以及如何通过智能体技术进一步提升RAG系统的性能。对于想要学习大模型技术的程序员来说本文提供了宝贵的实践经验和解决方案。“ RAG的本质就是快速和准确的召回文档但由于各种原因会导致其召回质量不尽人意因此我们需要从多个方面来优化其召回结果。”虽然说现在大模型的主流应用方向是智能体——Agent但也不能否则RAG在其中扮演的重大作用因此RAG也是企业应用场景中经常用到的技术。但RAG虽然看起来很简单但事实上存在很多问题和坑还是那句话想把RAG做出来很简单但想把RAG做好就很难。以自身遇到的问题为例一起讨论一下RAG各个环节中存在的问题和优化方案。从技术的角度来说RAG主要存在三个阶段文档处理数据召回增强生成其中这三个阶段最后一个阶段最简单就是把召回的内容丢给模型让模型根据这些内容进行处理所以RAG的难点主要在前两步文档处理和数据召回数据召回的质量直接影响到生成质量。RAG中场景的问题和解决方案文档处理所谓的文档处理本质上就是把外部文档处理成向量格式然后通过相似度计算的方式进行语义召回。当然RAG并没有限制必须把文档处理成向量格式也没限制必须要进行相似度召回RAG的目的是快速准确的找到和问题相关的内容因此使用任何召回方式都可以包括传统的字符匹配和现在的语义查询。只不过对于非格式化数据以及基于自然语言对话的展示场景使用相似度语义检索更符合业务场景。文档处理之所以是一个难点就在于其复杂的文档格式如txtwordpdfmarkdownexcelcsv等等很多种格式并且这些格式的数据没有一个统一的规范虽然excel和csv是格式化数据但在不同的业务场景中可能需要不同的处理比如有些场景中只需要按列处理即可而有些场景中可能需要解析表结构然后拼接成markdown或合并部分列数据。因此文档处理中文档的类型复杂的内容格式对格式化的不同要求以及文档的管理都是难点毕竟如果文档处理的不好会直接影响到第二步数据的召回质量。所以文档处理的难点其中之一就是怎么根据不同的业务场景去规范文档的处理流程及格式其次就是类似于wordpdf这种复杂的文档类型由于其没有固定的格式以及其同时支持多种不同模态的数据(文字图片表格架构图等等)导致其处理起来特别麻烦很容易丢失内容原本的意义如架构图和设计图等很难在向量化之后还保持其原本的意义。当然虽然现在使用多模态模型能够从一定程度上解决这个问题但从成本和复杂度来说好像又不是很值得。但基于orc等技术处理的复杂文档会丢失大量的有用信息。向量数据的保存其次是向量化数据的保存之前的数据大多使用关系型数据库进行保存并且其表结构和数据可以随时调整和修改但向量化数据库由于其特殊性导致其并不能像传统数据库那样随便进行编辑和修改因此刚开始设计的向量数据库随着业务的发展很难适应新的业务变化但其调整起来又特别复杂特别是随着业务数据的增多导致其维护其它特别麻烦。数据召回数据召回的目的是根据用户问题从大量的知识库中找到与用户相似度最高的文档内容然后交由模型进行增强生成但是面对语义召回这种本身就不确定的召回方式会出现两种情况一种是无法召回有效数据另一种是召回大量不相关数据而不论哪一种都会对下一步的增强检索造成严重的影响毕竟模型无法判断你提供的文档质量。因此面对这种情况需要从多个维度来提升召回质量一是在召回侧通过完善用户问题提出子问题假设性文档召回(hyDE)标量召回等。其次就是在文档处理端对文档进行提炼总结增加多个维度的相似度计算。增强生成虽然说增强生成比较简单但其实也挺重要的在上一步的数据召回时有时为了提高数据的召回质量会添加很多无关字段因此在正式把召回数据提交给模型之前我们需要对文档数据进行清洗和格式化处理比如删除一些无关字段把文档转换成模型更好处理的格式等等。而不是直接把召回内容一股脑的全部丢给模型。当然以上只是传统的RAG处理流程目前随着智能体技术的发展智能体技术也逐渐被应用到RAG中原理就是借助智能体的强大的工具使用能力以及自主决策能力让RAG系统能够动态获取外部数据的能力而不是只是人工处理好的死数据比如说使用浏览器进行网络搜索。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取