
你让一个 AI 分析一张卫星图像——它要调用 QGIS、GDAL、Google Earth Engine 等上百个专业工具才能完成任务。问题来了把 100 多个工具的说明书全塞给 AI它反而越来越笨只塞一部分它又找不到关键工具。这篇来自中南大学的论文提出了RS-Claw换了一个思路与其被动接收工具清单不如让 AI主动去探索工具。实验结果上下文 token 压缩最高 86%同时准确率全面超越两类基线。两种现有方案都有硬伤方案一Flat全量注册把所有工具说明直接写进系统提示词AI 想用什么随便挑。问题工具说明挤占了大量上下文空间留给 AI 思考中间步骤的空间被严重压缩。在长链任务中AI 还没规划完上下文就满了。而且遥感工具之间功能相近同类传感器的指标计算工具长得很像大量语义相似的描述混在一起AI 容易注意力涣散调用错误工具。方案二RAG检索增强任务开始前用语义向量检索出最相关的 N 个工具再喂给 AI。问题检索是一次性的在任务刚开始时完成。但遥感任务往往是多步骤的——第 3 步需要什么工具在第 1 步时你根本预测不准。关键工具就这样被漏检了。RS-Claw的主动之路核心要点三层技能树 渐进披露。第一层技能摘要层把 100 多个工具按功能聚成几大类论文中分为五类Index、Inversion、Perception、Analysis、Statistics每类只写一段简短的功能描述。Token 代价极低但能给 AI 一张地图——先知道大方向在哪。第二层工具目录层当 AI 确认要进入某个技能分支后才展开这个分支下所有工具的简要描述功能边界、输入输出不含参数细节。让 AI 在一个小范围内做精确比对而不是在全量工具里大海捞针。第三层工具文档层只有当 AI 确定要调用某个具体工具时才加载这个工具的完整参数规格和 API 签名。最详细也最占空间的信息只在真正需要的时候才进入上下文。如图所示整个机制把工具探索变成了 AI 推理决策的内生动作工具集合随推理进程动态扩展而不是一开始就全部加载。实验结果怎么样实验方案论文用POMDP部分可观测马尔可夫决策过程对整个推理过程建模。Flat 方案初始上下文 全量工具描述可调用工具集合从一开始就是全集且不再变化。RAG 方案初始上下文 外部检索器返回的子集可调用工具集合由外部程序决定AI 无法干预。RS-Claw主动探索初始上下文只有技能摘要AI 的动作空间新增了两类探索动作skill(s)展开某技能分支的工具目录doc(t)加载某工具的完整文档——只有执行了doc(t)之后工具 t 才进入可调用集合。关键区别前两种方案里可调用工具集合与 AI 的推理过程是解耦的RS-Claw 里可调用集合随着 AI 的主动探索动态演化工具发现本身成为了推理策略的一部分。准确率全面领先在 Earth-Bench 基准234 道遥感分析题上RS-Claw 在三个模型GPT-5、DeepSeek-V3.1、Qwen3-32b、两种评测模式自主规划 AP / 指令执行 IF下准确率全面超越 Flat 和 RAG。特别值得注意的是模型能力越弱RS-Claw 的提升越显著。Qwen3-32b 上RS-Claw 在 AP 模式下比 Flat 高出12.45 个百分点而在 GPT-5 上只高 3 个百分点。这说明渐进披露的真正价值在于减轻了上下文压力对弱模型的伤害。RAG 在所有配置下都低于 RS-Claw原因很直接——单次检索无法预判多步任务在后续步骤中需要哪些工具关键工具天然容易被遗漏。Token 压缩高达 86%Qwen3-32b AP 模式下RS-Claw 相比 Flat 的每题输入 token 从502,119 压缩到 70,759压缩率约86%每轮 token 从 30,612 降到 5,951降幅约81%。这不只是省钱更直接释放了 AI 用于中间状态存储和多步推理的思考空间。拓展分析消融实验两个设计缺一不可论文设计了两个消融变体Random保留三层技能树结构但工具随机打散到五个技能分支里破坏语义聚合。2layers删掉技能摘要层只保留工具目录层和文档层——相当于把所有工具名称直接写进系统提示词再按需加载详细文档。Random 的结果准确率比 RS-Claw 低 9.87 个百分点token 反而增加 43%。语义先验失效AI 不得不盲目探索浪费了大量无效轮次。2layers 的结果工具发现率Tool-Any-Order反而高于RS-Claw但最终准确率低于RS-Claw。这是一个很有意思的反直觉结论工具找得更全结果却更差。原因在于把所有工具名暴露在系统提示词里虽然提升了工具可见性但在 Qwen3-32b 这类对上下文压力更敏感的模型上压缩的推理空间抵消了工具发现率提升带来的收益导致多步规划被截断、中间结果混乱。技能摘要层是控制上下文规模的关键屏障不能省。扩展性测试同域工具扩展从最小工具集仅包含完成任务必需的工具开始每次增加 20 个同类无关工具直到 104 个全量工具。Flat准确率持续下降token 近线性增长最终涨幅超1100%。RS-Claw准确率基本稳定token 缓慢增长。工具最少时零冗余Flat 略胜 RS-Claw。说明 RS-Claw 的优势不是无条件的——它来自工具规模扩张带来的上下文压力工具少时不存在这个压力Flat 的直接可见优势反而占上风。跨域工具注入往遥感工具库里塞入完全无关的通用 API账户认证、日历提醒、金融服务、广告……总工具数从 104 → 179 → 234。两种方案的准确率都没有剧烈崩溃跨域工具语义差异大模型更容易过滤。但 token 开销差异非常明显Flat 的每轮 token 随工具总数线性增长RS-Claw 几乎不动。RS-Claw 的按需加载机制确保了无关工具的描述永远不会进入上下文工具库怎么扩张都不影响实际消耗。这是面向真实世界开放工具库场景的核心工程价值。这篇论文最值得借鉴的思路很多人看 AI Agent 的优化习惯从 prompt 工程或模型微调角度入手。RS-Claw 提供了一个不同的切入点重构工具端的组织架构把工具获取从被动接收变成主动探索并且不需要修改底层模型——即插即用。这套逻辑不只适用于遥感任何面临大规模工具库的垂直领域 Agent医疗、法律、金融、科学计算……都可以参考这个设计范式用层级结构管理工具信息让 AI 按需、渐进地加载而不是一次性全部注入。工具越多这个设计越值得。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】