掌握构建高效AI智能体的秘诀:简单模式打造强大系统(收藏版)

发布时间:2026/6/2 14:58:01

掌握构建高效AI智能体的秘诀:简单模式打造强大系统(收藏版) 本文分享了构建高效AI智能体的实战经验区分了工作流与智能体探讨了何时使用智能体以及如何使用框架。文章介绍了多种智能体系统模式包括增强型LLM、提示链、路由、并行化、编排者-执行者、评估者-优化者等并强调了保持设计的简洁性、透明度和精心打造智能体-计算机接口的重要性。通过这些实用建议开发者可以构建强大、可靠且易于维护的智能体系统。构建高效的 AI 智能体过去一年我们与数十个团队合作帮助他们在各行各业构建大语言模型LLM智能体Agent。我们发现了一个一致的规律最成功的实现往往不依赖复杂的框架或专业的库而是采用简单、可组合的模式composable patterns来构建。在这篇文章中我们将分享与客户合作以及自己构建智能体过程中积累的经验并为开发者提供构建高效智能体的实用建议。什么是智能体智能体可以从多个角度来定义。有些客户将其定义为完全自主的系统——能够长时间独立运行使用各种工具完成复杂任务。也有人用这个词来描述更具规范性的实现——遵循预定义的工作流运行。在 Anthropic我们将所有这些变体统称为智能体系统agentic systems但在架构层面做了一个重要区分工作流workflows与智能体agents。工作流是通过预定义的代码路径来编排 LLM 和工具的系统。智能体则是由 LLM 动态主导自身流程和工具使用的系统对如何完成任务拥有自主控制权。接下来我们将深入探讨这两类智能体系统。在附录 1“智能体的实践应用”中我们会介绍客户在两个领域中使用这些系统获得显著价值的案例。何时该用何时不该用智能体在使用 LLM 构建应用时我们建议尽可能寻找最简单的方案只在确有必要时才增加复杂度。这可能意味着根本不需要构建智能体系统。智能体系统通常是用延迟和成本来换取更好的任务表现你需要认真考虑这种取舍是否值得。当确实需要更高复杂度时工作流适合那些定义明确的任务能提供可预测性和一致性而智能体更适合需要灵活性和模型驱动决策的大规模场景。不过对于很多应用来说优化单次 LLM 调用——配合检索和上下文示例in-context examples——通常就足够了。何时以及如何使用框架有很多框架可以让智能体系统的实现变得更容易包括Claude Agent SDK[1]Strands Agents SDK by AWS[2]Rivet[3]一个拖拽式的 LLM 工作流可视化构建工具以及Vellum[4]另一个用于构建和测试复杂工作流的可视化工具。这些框架简化了调用 LLM、定义和解析工具、串联调用等底层任务让上手变得更容易。然而它们往往会引入额外的抽象层遮蔽了底层的提示词和响应让调试变得更困难。它们还可能诱使你在简单方案就够用的情况下引入不必要的复杂度。我们建议开发者从直接调用 LLM API 开始许多模式只需几行代码就能实现。如果你确实要用框架请务必理解其底层代码。对内部机制的错误假设是客户常犯的错误。可以参考我们的 cookbook[5] 获取一些示例实现。构建模块、工作流与智能体在这一节中我们将介绍在生产环境中常见的智能体系统模式。我们从基础构建模块——增强型 LLMaugmented LLM开始逐步提升复杂度从简单的组合式工作流到自主智能体。构建模块增强型 LLM智能体系统的基础构建模块是经过增强的 LLM——具备检索、工具和记忆等扩展能力。当前的模型已经能主动使用这些能力自主生成搜索查询、选择合适的工具、决定保留哪些信息。增强型 LLM在实现时我们建议重点关注两个方面一是根据你的具体场景定制这些能力二是确保它们为 LLM 提供简洁、文档完善的接口。虽然有很多方式可以实现这些增强能力但其中一种途径是通过我们最近发布的模型上下文协议[6]Model Context ProtocolMCP它允许开发者通过简单的客户端实现[7]接入不断壮大的第三方工具生态。在本文的后续部分我们假设每次 LLM 调用都具备这些增强能力。工作流提示链提示链Prompt chaining将一个任务分解为一系列步骤每次 LLM 调用处理上一步的输出。你可以在任何中间步骤上添加程序化检查参见下图中的gate以确保流程仍在正确轨道上。提示链工作流适用场景 当任务可以清晰地分解为固定的子任务时这种工作流最为理想。核心目标是用延迟换取更高的准确性——让每次 LLM 调用处理更简单的任务。提示链的应用示例先生成营销文案再将其翻译成其他语言。先写文档大纲检查大纲是否符合特定标准再根据大纲撰写完整文档。工作流路由路由Routing对输入进行分类并将其导向专门的后续任务。这种工作流实现了关注点分离可以构建更专业化的提示词。如果不采用路由针对某一类输入的优化可能会损害对其他类型输入的处理效果。路由工作流适用场景 路由适用于复杂任务中存在明确分类的情况且各类别最好分别处理同时分类本身可以被准确完成——无论是通过 LLM 还是传统的分类模型/算法。路由的应用示例将不同类型的客服查询常见问题、退款请求、技术支持导向不同的下游流程、提示词和工具。将简单/常见问题路由到更小、更经济的模型如 Claude Haiku 4.5将困难/罕见问题路由到更强大的模型如 Claude Sonnet 4.5以优化整体性能。工作流并行化LLM 有时可以同时处理一个任务的多个部分再通过程序化方式聚合输出。这种并行化Parallelization工作流主要有两种变体分段处理Sectioning将任务拆分为独立的子任务并行执行。投票机制Voting对同一任务运行多次以获得多样化的输出。并行化工作流适用场景 当子任务可以并行以提高速度或需要多个视角/多次尝试来获得更高置信度的结果时并行化非常有效。对于涉及多个考量维度的复杂任务让每个维度由单独的 LLM 调用处理通常比一次性处理所有维度效果更好——这样可以让模型对每个方面给予专注的关注。并行化的应用示例分段处理实现护栏guardrails机制一个模型实例处理用户查询另一个筛查不当内容或请求。这通常比让同一次 LLM 调用同时处理护栏和核心响应效果更好。自动化评测evals每次 LLM 调用评估模型在给定提示词上不同方面的表现。投票机制代码漏洞审查多个不同的提示词分别审查代码发现问题即标记。内容合规性判定多个提示词评估不同方面或设置不同的投票阈值以平衡误报和漏报。工作流编排者-执行者在编排者-执行者Orchestrator-workers工作流中一个中央 LLM 动态分解任务将子任务分派给执行者 LLM再综合它们的结果。编排者-执行者工作流适用场景 这种工作流适合那些无法预先确定子任务的复杂场景比如在编码中需要修改的文件数量和每个文件的修改内容往往取决于具体任务。虽然在结构上与并行化相似但关键区别在于灵活性——子任务不是预先定义的而是由编排者根据具体输入动态决定的。编排者-执行者的应用示例每次需要对多个文件进行复杂修改的编码产品。需要从多个来源收集和分析信息以寻找相关内容的搜索任务。工作流评估者-优化者在评估者-优化者Evaluator-optimizer工作流中一个 LLM 调用生成响应另一个提供评估和反馈形成循环。评估者-优化者工作流适用场景 当我们有明确的评估标准且迭代改进能带来可衡量的价值时这种工作流特别有效。判断是否适用有两个信号第一当人类明确指出反馈意见时LLM 的响应确实能得到改善第二LLM 本身也能够提供这样的反馈。这类似于人类作者在打磨一篇文章时经历的反复修改过程。评估者-优化者的应用示例文学翻译译者 LLM 可能无法一次捕捉所有细微之处但评估者 LLM 可以提供有价值的改进意见。复杂搜索任务需要多轮搜索和分析才能收集全面的信息由评估者决定是否需要继续搜索。智能体随着 LLM 在关键能力上日趋成熟——理解复杂输入、进行推理和规划、可靠地使用工具、从错误中恢复——智能体Agents正在生产环境中崭露头角。智能体的工作始于人类用户的指令或与用户的交互讨论。一旦任务明确智能体就会独立规划和执行必要时返回向人类获取更多信息或判断。在执行过程中智能体在每一步都从环境中获取真实反馈ground truth至关重要——比如工具调用结果或代码执行输出——以此评估自身进展。智能体可以在检查点或遇到阻碍时暂停等待人类反馈。任务通常在完成时终止但也常会设置终止条件如最大迭代次数来保持控制。智能体能够处理复杂的任务但其实现往往并不复杂。它们本质上就是 LLM 在循环中根据环境反馈使用工具。因此精心设计工具集及其文档至关重要。我们在附录 2“为你的工具做提示工程”中详细阐述了工具开发的最佳实践。自主智能体适用场景 智能体适用于开放式问题——很难或无法预测所需的步骤数量也无法硬编码固定路径。LLM 可能需要运行很多轮你必须对其决策能力有一定程度的信任。智能体的自主性使其非常适合在可信环境中扩展任务规模。智能体的自主特性意味着更高的成本以及错误累积的风险。我们建议在沙箱环境中进行充分测试并配备适当的护栏机制。智能体的应用示例以下示例来自我们自己的实现用于解决 SWE-bench 任务[8]一个评估 AI 编码能力的基准测试的编码智能体根据任务描述对多个文件进行编辑我们的计算机使用参考实现[9]让 Claude 使用计算机来完成任务。编码智能体的高层流程模式的组合与定制这些构建模块并非刚性的规范而是开发者可以根据不同场景自由塑造和组合的通用模式。成功的关键——和所有 LLM 功能一样——在于衡量性能并不断迭代。再次强调只有当增加复杂度能明确改善结果时才应该这样做。总结在 LLM 领域取得成功靠的不是构建最精巧的系统而是构建最合适的系统。从简单的提示词开始通过全面的评测来优化只有在简单方案力不从心时才引入多步骤的智能体系统。在实现智能体时我们遵循三个核心原则1. 保持设计的简洁性。2. 优先考虑透明度——明确展示智能体的规划步骤。3. 通过充分的工具文档和测试精心打造智能体-计算机接口ACI。框架可以帮助你快速起步但在迈向生产环境时不要犹豫去减少抽象层回归基础组件来构建。遵循这些原则你可以打造出不仅强大而且可靠、易维护、值得用户信赖的智能体。附录 1智能体的实践应用在与客户合作的过程中我们发现了两个特别有前景的 AI 智能体应用场景它们充分体现了上文讨论的各种模式的实际价值。这两个应用场景都展示了同一个规律智能体在以下条件下能发挥最大价值——任务需要对话与行动并重有明确的成功标准能形成反馈闭环并融入有意义的人工监督。A. 客户支持客户支持将熟悉的聊天机器人界面与工具集成带来的增强能力相结合使其特别适合开放式智能体原因在于支持交互本身就遵循对话流程同时需要访问外部信息和执行操作可以集成工具来调取客户数据、订单历史和知识库文章退款发放、工单更新等操作可以通过程序化方式处理成功与否可以通过用户自定义的解决标准清晰衡量。多家公司已经通过按解决付费的定价模式验证了这一方案的可行性——只对成功解决的问题收费这充分说明了它们对自家智能体效果的信心。B. 编码智能体软件开发领域展现了 LLM 能力的巨大潜力从代码补全进化到自主解决问题。智能体在这一领域特别有效因为代码方案可以通过自动化测试来验证智能体可以利用测试结果作为反馈来迭代改进方案问题空间定义明确、结构清晰输出质量可以客观衡量。在我们自己的实现中智能体现在已经能够仅根据 Pull Request 描述在 SWE-bench Verified[8] 基准测试中解决真实的 GitHub Issue。不过虽然自动化测试有助于验证功能正确性人工审查对于确保方案符合更广泛的系统需求仍然至关重要。附录 2为你的工具做提示工程无论你构建的是哪种智能体系统工具都可能是智能体的重要组成部分。工具[10]使 Claude 能够与外部服务和 API 交互——通过在 API 中指定工具的精确结构和定义来实现。当 Claude 响应时如果它打算调用工具会在 API 响应中包含一个工具调用块[11]tool use block。工具的定义和规范应该得到与整体提示词同等程度的提示工程关注。在这个简短的附录中我们介绍如何为你的工具做提示工程。同一个操作往往有多种指定方式。例如编辑文件可以通过写 diff 来实现也可以重写整个文件。对于结构化输出可以将代码放在 markdown 中返回也可以放在 JSON 中。在软件工程中这些差异只是表面形式可以无损地相互转换。然而某些格式对 LLM 来说要难写得多。写 diff 需要在编写新代码之前就知道 chunk header 中变更了多少行。将代码放在 JSON 中相比 markdown需要额外转义换行符和引号。我们对工具格式选择的建议如下给模型足够的 token 来思考以免它把自己逼入死角。让格式尽量接近模型在互联网文本中自然见到的形式。确保没有额外的格式负担——比如需要精确统计数千行代码的行数或转义它写出的代码中的字符串。一个经验法则想想人们在人机接口HCI上投入了多少心力然后计划在智能体-计算机接口ACI上投入同样多的精力。以下是一些具体思路站在模型的角度想一想。仅凭工具的描述和参数使用方式是否一目了然还是需要仔细琢磨才能弄清楚如果你自己都需要想一想模型大概率也是如此。好的工具定义往往包含使用示例、边界情况、输入格式要求以及与其他工具的清晰界限。怎样调整参数名称或描述才能让意图更加显而易见把这想象成为团队里的初级开发者写一份出色的文档字符串——当你有很多相似的工具时这一点尤为重要。测试模型如何使用你的工具在我们的 workbench[12] 中运行大量示例输入观察模型会犯哪些错误然后不断迭代。对你的工具进行防呆设计Poka-yoke[13]源自丰田生产方式的一种防错机制。调整参数设计让犯错变得更困难。在为 SWE-bench[8] 构建智能体时我们花在优化工具上的时间实际上比优化整体提示词还要多。举个例子我们发现当智能体离开根目录后使用相对文件路径的工具会导致模型出错。为此我们将工具改为始终要求使用绝对文件路径——结果模型完美无误地使用了这种方式。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

相关新闻