RAG效果差?这5种文本分块策略必须掌握(深度解析),从入门到精通,收藏这一篇就够了!

发布时间:2026/5/23 18:06:21

RAG效果差?这5种文本分块策略必须掌握(深度解析),从入门到精通,收藏这一篇就够了! 以下是 RAG 应用程序的典型工作流程RAG将附加信息存储为向量将传入的查询与这些向量进行匹配并将最相似的信息连同查询一起提供给 LLM。由于附加文档可能非常大因此步骤 1 还涉及分块即将大文档分成更小/更易于管理的部分。这一步骤至关重要因为它能确保文本符合嵌入模型的输入大小。此外它提高了检索步骤的效率和准确性直接影响生成响应的质量我们昨天讨论过这一点。以下是 RAG 的五种分块策略今天我们就来了解一下它们注昨天我们讨论了构建依赖于成对内容相似度的鲁棒自然语言处理系统的技术RAG 就是其中之一。如果您错过了请点击此处阅读用于句子对相似度评分的双编码器和交叉编码器 – 第一部分。1固定大小分块生成文本块最直观、最直接的方法是根据预定义的字符数、单词数或标记数将文本分割成统一的片段。由于直接分割可能会扰乱语义流因此建议在两个连续的块之间保持一些重叠如上图中的蓝色部分。这很容易实现。此外由于所有数据块大小都相等因此简化了批处理。但这样做存在一个大问题。这通常会打断句子或思路。因此重要信息很可能会分散在不同的文本块中。2语义组块这个想法很简单。根据句子、段落或主题章节等有意义的单元对文档进行分段。接下来为每个片段创建嵌入。假设我从第一个片段及其嵌入开始。如果第一个片段的嵌入与第二个片段的嵌入具有较高的余弦相似度则这两个片段构成一个块。这种情况会一直持续到余弦相似度显著下降为止。一旦发生这种情况我们就开始新的一段并重复操作。以下是输出结果的示例与固定大小的词块不同这种方式保持了语言的自然流畅性并保留了完整的思想。由于每个数据块都更加丰富因此提高了检索准确率进而使 LLM 产生更连贯、更相关的响应。一个小问题是它依赖于一个阈值来确定余弦相似度是否显著下降而这个阈值会因文档而异。3递归分块这很简单首先根据段落或章节等固有分隔符进行分块。接下来如果数据块的大小超过预设的块大小限制则将其分割成更小的数据块。但是如果数据块的大小符合块大小限制则不再进行分割。以下是输出结果的示例如上图所示首先我们定义两个部分紫色部分的两个段落。接下来第 1 段进一步分成更小的部分。与固定大小的词块不同这种方法还能保持语言的自然流畅性并保留完整的思想。然而在实现和计算复杂度方面存在一些额外的开销。4基于文档结构的块划分这是另一种直观的方法。它利用文档固有的结构如标题、章节或段落来定义块边界。这样它就能与文档的逻辑部分保持一致从而保持结构完整性。以下是输出结果的示例也就是说这种方法假设文档具有清晰的结构但这可能并非事实。此外数据块长度可能不均匀甚至可能超出模型令牌限制。您可以尝试使用递归分割来合并这些数据块。5基于LLM的组块既然每种方法都有其优点和缺点为什么不使用 LLM 来创建块呢可以提示 LLM 生成语义上独立且有意义的数据块。显然这种方法将确保较高的语义准确性因为 LLM 可以理解上下文和含义而不仅仅依赖于简单的启发式方法上述四种方法中使用的。唯一的问题是它是这里讨论的五种分块技术中计算量最大的。此外由于 LLM 通常具有有限的上下文窗口因此这也是需要注意的问题。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻