
AI Agent到底靠什么变强Agent的能力不只取决于底层大模型还取决于围绕它的整个系统架构也就是所谓的Harness执行框架。UC Berkeley的研究者提出《从模型缩放定律到系统缩放定律扩展智能体AI中的Harness》。同时开源了CheetahClaws一个用Python从零重写的Agent框架把Claude Code的核心思路做成了人人可用、模型任选的开源工具。CheetahClaws怎么把系统缩放的理念落到了工程实践里的呢从模型到系统过去几年AI进步的主线故事是模型缩放更大的模型更多的数据更强的后训练更高的基准分数。对Agent来说这个故事已经不完整了。当基础模型被嵌入工具、终端、浏览器、代码仓库、记忆存储和外部服务之后它的行为已经超出模型单独决定的范畴取决于一整个系统上下文怎么构建记忆怎么检索工具怎么调用子Agent怎么分发动作怎么验证失败怎么审计。论文的核心论点是Agent应该被当作一个系统缩放问题来研究和评估而不仅仅是模型缩放问题。模型缩放改进的是基础模型本身包括模型大小、训练数据、后训练和原始推理能力。系统缩放改进的是周围的架构包括记忆、上下文构建、跨工具和子Agent的技能路由、编排以及验证与治理还有这些组件如何随时间适应变化。系统缩放就是缩放Harness改进基础模型周围的结构化执行层让这些系统组件在长时间跨度内可靠工作。一个对Agent基准测试的全局分析发现很多结果没有将能力与成本、提示策略和演示分离开来一旦控制这些因素结果就不再是帕累托最优。同样仅仅重新设计Agent与计算机的交互界面在保持底层模型不变的情况下就能大幅提升SWE-bench的准确率。所以很多被报告为模型分数的东西其实是模型加Harness的分数。上下文长度也是一个例子更大的上下文窗口并不保证有效的信息访问注意力在长输入上会稀释模型往往偏好上下文开头或结尾的证据忽略中间的。多Agent系统也有类似模式在广度优先任务上可以超越单Agent但会引入单Agent指标无法捕捉的协调失败。Harness的隐形骨架研究者把一个Agent系统拆成六个交互组件推理基底R、记忆存储M、上下文构建器C、技能路由层S、编排循环O、验证与治理层G。一个Agent在时间跨度H上的性能可以表示为P(H) Φ(R,M,C,S,O,G)。模型缩放主要改进R系统缩放改进M、C、S、O、G。记忆和上下文可拆解为更细的子轴。记忆M (precision, durability, retrievability, verifiability)即精确性、持久性、可检索性和可验证性。上下文C (relevance, compactness, traceability, refresh policy)即相关性、紧凑性、可追溯性和刷新策略。每个因子都命名了一个系统级杠杆。研究者开源了CheetahClaws并将它与代表不同部署优先级的Harness设计对比。Claude Code是面向供应商的编码AgentOpenClaw是面向多渠道个人助理的社区工具CheetahClaws是面向研究的参考实现。三个系统都遵循共享的系统分解原则各自处理上下文治理、记忆管理和技能路由只是这些杠杆通过不同的设计选择来实现。这种趋同说明上下文治理、记忆管理和技能路由是Agent系统的内在设计问题任何实现都无法回避。主要差异来自部署优先级供应商级系统优先可靠使用个人助理系统优先多渠道管理网关研究导向的Harness优先透明性和可复现性。在记忆方面三个系统都通过子Agent提取、后台守护进程或专用整合例程把会话内容整合成持久记忆。差异在于信任的表示方式。CheetahClaws把每条记忆的置信度和新鲜度存为一级字段直接用于检索排序和冲突解决。另外两个系统则从访问模式中隐式推导信任。CheetahClaws更直接地把信任轴的操作落到了实处。提示、技能和记忆可解读为系统缩放的三个时间轴。提示是短期控制接口灵活便宜但脆弱。技能是可复用执行模式让行为更可复用但引入了路由问题Agent必须决定调用哪个技能、何时切换、如何组合。记忆是纵向层存储跨回合或会话应持久化的内容但可能沿三条信任轴失败漂移失去持久性、过度泛化失去精确性、污染失去可验证性。一个稳健的Agent不只是提示写得好还要技能配置得当还要有选择地扎根在持久的记忆中。CheetahClaws的工程实践CheetahClaws就是系统缩放的理论框架的工程落地。这个项目用Python重写Claude Code的核心循环同时让它支持任意模型。Claude Code是一个强大的生产级AI编码助手但它的源码是一个编译后约12MB的TypeScript/Node包大约1332个文件、28.3万行代码与Anthropic API紧密耦合难以修改不可能跑本地或替代模型。CheetahClaws用约9万行可读Python重新实现了相同的核心循环保留了需要的丢掉了不需要的加上多供应商和本地模型支持。核心对比数据如下。Claude Code胜在更丰富的React/Ink界面、更多内置工具、企业特性MDM、团队权限同步、OAuth/密钥链、AI驱动的记忆提取、单二进制生产可靠性。CheetahClaws胜在任意模型切换、一个文件740行的可读Agent循环、零构建、运行时工具注册加MCP加git插件加Markdown技能、任务依赖图、双层上下文压缩、离线语音、云会话同步、Telegram/WeChat/Slack/QQ桥接。CheetahClaws在v3.05.79版本中已经具备了相当完整的功能集。33个内置工具覆盖了读、写、编辑、Bash执行、文件搜索、网页抓取、PDF阅读、邮件处理等场景。MCP集成支持stdio/SSE/HTTP三种传输方式MCP服务器上的工具自动注册。插件系统允许从git URL安装插件扩展自定义工具、命令、技能和MCP服务器。上下文压缩是一个亮点。四层协作机制动态max_tokens上限、每模型上下文窗口注册表、70%阈值时的双层裁剪加AI摘要、以及针对超长工具输出的自动扇出。四层压缩对应了论文中上下文治理的四个子轴相关性、紧凑性、可追溯性和刷新策略。持久记忆采用双作用域用户和项目4种类型带置信度和来源元数据冲突检测新鲜度加权搜索还有/memory consolidate命令来整合记忆。双作用域记忆直接实现了论文中记忆信任的四个子轴精确性、持久性、可检索性和可验证性。多Agent能力允许生成带类型的子Agent编码者、审查者、研究者等使用git worktree隔离支持后台执行。多Agent分发对应了论文中技能路由层S的概念。安全方面CheetahClaws有auto/accept-all/manual/plan四种权限模式提示注入检测凭证过滤安全stdio封装。在v3.05.79版本中安全加固涵盖了环境变量bot令牌、Web CSRF cookie、终端会话所有者绑定以及插件/MCP/文件系统沙箱。Daemon模式让CheetahClaws可以作为长时间运行的服务用cheetahclaws serve启动。Research Lab是一个自主多日研究功能配备9个专业化AgentPI、工程师、3个审查者等沙箱化的Python实验引用验证arXiv/Semantic Scholar/CrossRef审查者与作者的迭代目标是arXiv级预印本质量。20源研究管线并行展开覆盖arXiv、Semantic Scholar、OpenAlex、HuggingFace Papers、HackerNews、GitHub、Reddit、SEC EDGAR、Twitter/X以及知乎、B站、微博、小红书支持跨平台注意力热表、实体提取、每周趋势追踪。在模型支持上CheetahClaws覆盖了云端和本地两条路。云端支持Anthropic Claude、OpenAI GPT-4o/GPT-5、Google Gemini、DeepSeek、阿里Qwen、月之暗面Kimi、智谱GLM、MiniMax共8个供应商200多个模型。本地通过Ollama支持qwen2.5-coder、llama3.3、deepseek-r1、mistral、phi4等也支持LM Studio和vLLM自建端点。切换模型只需--model参数或/model命令无需重新编译。与OpenClaw的对比也有意思。OpenClaw是一个面向个人生活的跨消息渠道助手约24.5万行代码、10349个文件。CheetahClaws则专注编码和开发工具约9万行代码、315个文件。如果你想要WhatsApp/Signal/Discord上的个人助理、移动优先、浏览器自动化选OpenClaw。如果你想要终端里的AI编码助手、完整的离线和本地模型支持、多供应商切换、一下午能读完源码的项目选CheetahClaws。评估与进化研究者还提出了一个评估议程。当前的Agent基准测试已经做了不少正确的事SWE-bench用代码库自身的测试套件评估AgentBench跨越多种交互环境WebArena面向浏览器AgentTerminal-Bench引入了环境锚定的终端任务。但它们对系统级评估来说还不够。单分数报告可能把模型能力和Harness设计混在一起很难判断提升来自更强的模型还是更好的系统。在长跨度和多Agent场景下小的系统选择比如先检查哪个文件、保留哪些事实、何时运行测试、如何从失败动作恢复会随时间累积并影响最终结果。端点指标也无法捕捉成本和风险两个Agent可能都解决了任务但在token消耗、工具调用、重试次数、失败编辑、人工干预和可审计性上差别巨大。上表列出了系统缩放评估需要的基准维度。下一代Agent基准应该额外测量重复使用属性记忆检索精度和记忆卫生最小上下文效率跨子Agent的通信保真度长轨迹或会话间的漂移陈旧记忆或错误路由后的验证感知恢复以及工具访问和自主执行下的安全性。当前的评估往往只衡量Agent能否完成任务不衡量它能否在重复完成类似任务的同时不断改进、保持接地、避免静默退化。一个成熟的Agent不应该只会行动还应该能进化。但领域缺少持久适应的标准。什么应该随时间改变只改记忆还是路由策略、技能和协作协议也可以变什么应该固定以便审计什么算安全改进什么算危险漂移研究者认为记忆、技能、偏好和护栏应该区分开避免合并成一个无差别的状态。更新策略应该区分可以在线适应的组件和需要审查、重放或更强验证的组件。纵向改进应该和回归、漂移、早期失败复发一起评估单靠滚动成功率推断不出全貌。记忆写入、路由变更、工具权限和协作失败应该留下可检查的痕迹。更强的模型最终会解决系统问题吗模型缩放会继续改善Agent行为但很多部署中的失败源于陈旧记忆、过宽的工具权限、缺失来源、未验证检索和不安全动作执行属于系统失败。更强的模型可能降低频率但不消除对明确机制的需求。端到端训练会取代模块化系统吗端到端训练可能改善跨组件协调但部署的Agent仍然需要模块边界可审计性、权限控制、回滚和来源追溯不可或缺。系统级评估太贵或太环境特定吗系统级评估确实更贵但正是因为Agent被部署在成本、延迟、工具风险、记忆漂移和验证开销决定系统可用性的环境中评估协议应该暴露这些因素不该把它们抽象掉。CheetahClaws作为研究者核心思想的参考实现把这些理念尽量落到了工程中。结构化记忆带置信度和新鲜度字段对应记忆信任轴。双层上下文压缩对应上下文治理轴。技能路由和多Agent分发对应技能路由轴。权限系统和审计轨迹对应治理轴。它不是完美实现但它让Harness层面的设计选择变得显式和可讨论。模型缩放和系统缩放两条路并行Agent才能真正变强。参考资料https://cheetahclaws.github.io/https://github.com/SafeRL-Lab/cheetahclawshttps://arxiv.org/pdf/2605.26112