
一年之内模型失败率被大幅压低最近Anthropic团队研究产品经理TheodoraTheoChu的一段演讲视频引发关注。Theo表示如今越来越多开发者在日常工作中借助Claude提升效率有人认为效率翻倍也有人觉得提升了10倍。更关键的是Claude已深入Anthropic自身工程流程“Anthropic内部超过80%的代码由Claude合并”这意味着模型角色在转变不再局限于回答问题而是在可反馈、验证、修正的环境里持续完成任务即“Close the Loop闭合循环给模型一种验证自身输出结果的方式”。在这场分享中Theo想告诉开发者“应如何适应新世界面向未来构建产品而非仅为过去构建产品”。为此他详细拆解了构建自我改进Agent的方法“真正的配置是让Claude在循环、计划模式和动态工作流中持续运行”。网友rari0xwhrrari认为“这要比大多数300美元的Agent课程都要好”。接下来我们详细了解这场演讲内容。Theo以编程评估基准SWE - bench Verified为例它由一系列GitHub issue组成模型需理解问题、修改代码并通过测试证明解决任务这是Anthropic内部观察Claude编程能力提升的重要评测。一年前的Sonnet 3.7得分约60%到Opus 4.8得分达88%意味着一年前模型在这些任务上的失败次数约是现在的3倍。这表明模型能力提升不仅是“多做对几道题”更在于失败率快速下降。失败率下降后模型才可能承担更复杂、接近真实工作的任务。此外最新的Mythos和Fable系列模型中该基准测试接近饱和一些过去难的测试如今已不能有效区分模型能力。这对开发者是重要信号用12个月前的任务测试如今的模型易低估其能力边界。新模型智能增长体现在以下三个核心领域一是先规划再行动Theo展示同一任务在两个模型上的表现让模型重建Claude.ai网站。旧模型上来就写大量代码、调用大量工具缺乏规划界面看似合理但运行不完整、功能未闭环“像装宜家家具不看说明书拼错才回头看”。而以Opus 4.8为代表的新模型有自适应思考能力会先深思规范规划中捕捉错误输出自我修正词这种方式让模型首次执行就高效落地减少工具调用和代码行数。所以Theo建议开发者允许模型先思考产品体验要为思考留空间简单问题不折腾模型复杂任务给足规划空间。二是错误恢复和自我纠正过去做Agent重点在“让模型调用更多工具”但Theo强调工具调用不够模型要知道自己何时做错。旧模型常见doom looping问题失败后再次尝试仍用老方法。新模型能读取反馈、理解失败原因并尝试不同路径具备错误恢复能力这对Agent产品关键因为长任务中模型必遇错误有价值的Agent是犯错后能恢复。因此开发者要重新设计模型环境让其知道错误所在“模型不会因doom looping浪费token能用更少token完成任务”。比如做应用生成Agent要给其访问前端界面能力让它验证、修正、再执行这就是网友rari0xwhrrari强调的“close the agent loop闭环智能体循环”。三是模型越来越擅长在更长任务周期上运行旧模型在长任务中常“跟丢主线”遗忘最初目标或上下文。现在模型在长程任务上下文连贯性上有显著突破能稳定维持100万个Token甚至更高级别的注意力。这意味着开发者可直接给模型整个代码库未来应把更完整任务交给模型如给整个代码库而非单个文件给完整产品需求而非孤立函数让它跑完整流程而非局部步骤。当规划、错误恢复和长上下文能力叠加Agent形态改变可先规划再执行验证结果后调整计划继续执行直至完成任务。开发者该如何为未来进行构建随着模型更智能用户可让其运行更久完成任务效率和效果更好。从战术上讲开发者在产品与工程层面需全面升级研发战术一是主动保持野心动态刷新评估基准Evals开发者要大胆让Claude处理更多事思考Claude如今做不到的任务并持续关注。模型快速进步后开发者易误判新模型没明显提升原因可能在Evals。Theo提到有些客户新模型发布后觉得Evals只提升1%但实际使用发现某些能力提升明显说明Evals会过时。AI时代Evals像单元测试可助开发者判断模型能力、追踪对用户体验的影响。好的Eval要面向未来设计融入用户报告的失败模式和应用未来发展方向遗留问题不可解就更新题目。二是精简「脚手架」Shrink the ScaffoldingTheo建议缩小模型周围的“脚手架”即工程实践中为修补旧模型漏洞套上的系统提示词、外部工具、代码Harness及约束补丁。这些补丁在旧模型时代有用但新模型指令遵循能力变强后旧补丁可能成问题。Theo举Anthropic自身例子团队曾以为新模型Claude.ai引用功能有Bug后发现是新模型太听话执行了过时提示词删掉提示词功能恢复正常。所以开发者应“针对意图”写简洁提示词明确结果给模型松绑看清其真正能力。三是闭环设计让模型验证自身的输出结果模型完成复杂任务仅有思考不够还需动作能力这是构建自改进Agent的核心底层逻辑。既然模型有强错误恢复能力工程上要“闭环智能体循环”Close the Agent Loop给模型留出思考与工作的空间引入自适应思考机制产品设计允许模型前端思考可通过投入度拨盘让模型自由调整钻研程度。以受控的方式开放高权限发挥Agent自主性要赋予其在环境里行动的权限。Anthropic在Claude Code中推出“自动模式”分类器平衡“开发者控制欲”与“模型自主权”甄别安全行动防止模型误删环境。提供自我质检的工具为Agent配备“Computer Use”等自动化验证工具让智能体通过前端操作、环境反馈发现错误实现代码自我迭代与修正。