效果爆了,SDSR用Skill思路做好了RAG

发布时间:2026/6/4 1:08:01

效果爆了,SDSR用Skill思路做好了RAG 先说核心观点LLM 有一个被广泛视为缺陷的特性——“中间遗忘”Lost-in-the-Middle信息放在上下文中间就容易忽略。但这篇论文说别修了用它。“中间遗忘”被当成 bug 的架构特性Liu et al. (2024) 发现 LLM 对输入的注意力分布呈 U 型——开头和结尾的信息获得高关注中间的信息被系统性忽视。这个中间遗忘效应在 GPT-3.5、Claude、MPT 等模型上一致存在。整个 AI 社区的反应是修重排序检索结果把相关内容放在开头、用注意力增强技术让模型更均匀地关注输入……但这篇论文指出首位偏差primacy bias是因果注意力掩码的数学必然——只要用因果解码器架构首部位置就一定会获得最高注意力。这不是 bug是架构特性。与其对抗它不如利用它。SDSR 的核心思路SDSR 的全称是 Self-Describing Structured Retrieval——自描述结构化检索。思路极其朴素在结构化数据文件的开头primacy position嵌入一段人类编写的导航元数据让文件自己描述自己LLM 读取时自然优先关注这段导航信息。具体来说在一个 JSON 知识库文件的最前面加入一个_summary块包含category_index所有类目的名称、技能数量和 100 字路由提示_llm_instructions告诉模型如何用这个索引做两阶段导航routing_roles把元功能认知锚点、通用兜底、领域专用映射到具体类目这样LLM 不需要在 119 个类目中逐个扫描——它先看最前面的索引定位到目标类目再深入该类目查找具体技能。两层检索管道SDSR 不只是在文件里加个目录。它设计了一个两层检索管道Tier 1摘要扫描Python 读取每个文件的_summary块约 200 tokens/文件把所有摘要拼成一个小上下文让 LLM 做 routing——选出 1-3 个相关文件。Tier 2全文处理只加载被选中的文件的完整内容让 LLM 在小上下文中做精准选择。关键效率属性Tier 1 的上下文长度与文件数成正比而非文件内容的总量。100 个文件各 10,000 tokensTier 1 只需约 20,000 tokens而全量注入需要 1,000,000 tokens。不需要向量数据库、不需要嵌入模型、不需要分块策略。双层引导论文通过 4 轮实验、4 种条件A 无引导 / B 仅文件内索引 / C 仅系统提示规则 / D 双层组合、3 个规模36→60→119 类目做了系统验证。关键发现文件内索引在大规模时失效规模无引导 (A)文件内索引 (B)系统提示规则 ©双层 (D)36 类目100%100%100%—60 类目75%80%85%—119 类目65%65%80%100%最意外的发现119 类目时文件内索引和无引导效果完全一样。原因当_summary中有 119 条路由提示每条 100 字符索引本身约 12,000 tokens——它自己就变成了一个长文本遭受同样的中间遗忘。索引中间的条目获得的注意力大幅下降。而系统提示中的规则不随类目数增长——优先选择高层级管道/治理类目而非低层级机制/组件类目这条规则只有一句话在任何规模下都保持完整注意力。双层为什么互补论文揭示了两层引导解决的是不同的问题文件内索引做结构导航——“这 119 个类目分别是什么在哪”。在 60 类目以下有效更大规模时索引本身太长。系统提示规则做抽象层级消歧——“当’机制’类目和’治理’类目都相关时选治理”。这类规则长度固定不受规模影响。两层缺一不可只有文件内索引大规模时找不到类目只有系统提示规则模型不知道具体类目名。组合后文件索引提供完整类目空间系统提示提供消歧规则——119 类目下达到 100% 主路由准确率。扩展到半结构化文档论文还展示了 SDSR 如何扩展到法律判决等半结构化文档一次结构化预处理自动提取判决书的事实主张、被告答辩、法院推理、裁判主文等段落生成_summary块包含核心事实、法律推理和交叉引用“法院推理 C 节直接引用了原告 A 节第 4-7 段——涉及损害赔偿金额的查询请同时加载这两节”交叉引用字段等价于知识库中的complement字段——使隐性的文档结构关系显式化预处理成本每个判决约 1,000-2,000 tokens 的 LLM 调用。10,000 份判决约 15-20M tokens——和 RAG 的嵌入成本相当但产出的是丰富的显式结构元数据而非不透明的稠密向量。小扬观点如果你的知识库有清晰的人类定义的类目边界你可能不需要向量数据库。一个_summary块 几条系统提示规则就够了。SDSR 不是 RAG 的替代品而是对特定场景的轻量替代——结构化知识库。对于非结构化语料新闻、网页RAG 仍然是更好的选择。任何只存在于你脑子里的类目关系互补、依赖、层级都必须显式写进数据结构。LLM 无法从类目描述中推断设计者的架构意图。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻