最具代表性的三种智能体范式

发布时间:2026/5/19 17:31:46

最具代表性的三种智能体范式 ReAct (Reasoning and Acting)一种将“思考”和“行动”紧密结合的范式让智能体边想边做动态调整。Plan-and-Solve一种“三思而后行”的范式智能体首先生成一个完整的行动计划然后严格执行。Reflection一种赋予智能体“反思”能力的范式通过自我批判和修正来优化结果。ReActReAct范式中的“思考-行动-观察”协同循环ReAct范式通过一种特殊的提示工程来引导模型使其每一步的输出都遵循一个固定的轨迹Thought (思考)这是智能体的“内心独白”。它会分析当前情况、分解任务、制定下一步计划或者反思上一步的结果。Action (行动)这是智能体决定采取的具体动作通常是调用一个外部工具例如Search[华为最新款手机]。Observation (观察)这是执行Action后从外部工具返回的结果例如搜索结果的摘要或API的返回值。智能体将不断重复这个Thought - Action - Observation的循环将新的观察结果追加到历史记录中形成一个不断增长的上下文直到它在Thought中认为已经找到了最终答案然后输出结果。这个过程形成了一个强大的协同效应推理使得行动更具目的性而行动则为推理提供了事实依据。这种机制特别适用于以下场景需要外部知识的任务如查询实时信息天气、新闻、股价、搜索专业领域的知识等。需要精确计算的任务将数学问题交给计算器工具避免LLM的计算错误。需要与API交互的任务如操作数据库、调用某个服务的API来完成特定功能。一、ReAct 的主要特点高可解释性ReAct 最大的优点之一就是透明。通过Thought链我们可以清晰地看到智能体每一步的“心路历程”——它为什么会选择这个工具下一步又打算做什么。这对于理解、信任和调试智能体的行为至关重要。动态规划与纠错能力与一次性生成完整计划的范式不同ReAct 是“走一步看一步”。它根据每一步从外部世界获得的Observation来动态调整后续的Thought和Action。如果上一步的搜索结果不理想它可以在下一步中修正搜索词重新尝试。工具协同能力ReAct 范式天然地将大语言模型的推理能力与外部工具的执行能力结合起来。LLM 负责运筹帷幄规划和推理工具负责解决具体问题搜索、计算二者协同工作突破了单一 LLM 在知识时效性、计算准确性等方面的固有局限。二、ReAct 的固有局限性对LLM自身能力的强依赖ReAct 流程的成功与否高度依赖于底层 LLM 的综合能力。如果 LLM 的逻辑推理能力、指令遵循能力或格式化输出能力不足就很容易在Thought环节产生错误的规划或者在Action环节生成不符合格式的指令导致整个流程中断。执行效率问题由于其循序渐进的特性完成一个任务通常需要多次调用 LLM。每一次调用都伴随着网络延迟和计算成本。对于需要很多步骤的复杂任务这种串行的“思考-行动”循环可能会导致较高的总耗时和费用。提示词的脆弱性整个机制的稳定运行建立在一个精心设计的提示词模板之上。模板中的任何微小变动甚至是用词的差异都可能影响 LLM 的行为。此外并非所有模型都能持续稳定地遵循预设的格式这增加了在实际应用中的不确定性。可能陷入局部最优步进式的决策模式意味着智能体缺乏一个全局的、长远的规划。它可能会因为眼前的Observation而选择一个看似正确但长远来看并非最优的路径甚至在某些情况下陷入“原地打转”的循环中。提示词模版# ReAct 提示词模板 REACT_PROMPT_TEMPLATE 请注意你是一个有能力调用外部工具的智能助手。 可用工具如下: {tools} 请严格按照以下格式进行回应: Thought: 你的思考过程用于分析问题、拆解任务和规划下一步行动。 Action: 你决定采取的行动必须是以下格式之一: - {{tool_name}}[{{tool_input}}]:调用一个可用工具。 - Finish[最终答案]:当你认为已经获得最终答案时。 - 当你收集到足够的信息能够回答用户的最终问题时你必须在Action:字段后使用 finish(answer...) 来输出最终答案。 现在请开始解决以下问题: Question: {question} History: {history} Plan-and-SolvePlan-and-Solve范式的两阶段工作流Plan-and-Solve 将整个流程解耦为两个核心阶段规划阶段 (Planning Phase)首先智能体会接收用户的完整问题。它的第一个任务不是直接去解决问题或调用工具而是将问题分解并制定出一个清晰、分步骤的行动计划。这个计划本身就是一次大语言模型的调用产物。执行阶段 (Solving Phase)在获得完整的计划后智能体进入执行阶段。它会严格按照计划中的步骤逐一执行。每一步的执行都可能是一次独立的 LLM 调用或者是对上一步结果的加工处理直到计划中的所有步骤都完成最终得出答案。Plan-and-Solve 尤其适用于那些结构性强、可以被清晰分解的复杂任务例如多步数学应用题需要先列出计算步骤再逐一求解。需要整合多个信息源的报告撰写需要先规划好报告结构引言、数据来源A、数据来源B、总结再逐一填充内容。代码生成任务需要先构思好函数、类和模块的结构再逐一实现。规划阶段提示词模版 执行阶段提示词模版 python EXECUTOR_PROMPT_TEMPLATE 你是一位顶级的AI执行专家。你的任务是严格按照给定的计划一步步地解决问题。 你将收到原始问题、完整的计划、以及到目前为止已经完成的步骤和结果。 请你专注于解决“当前步骤”并仅输出该步骤的最终答案不要输出任何额外的解释或对话。 # 原始问题: {question} # 完整计划: {plan} # 历史步骤与结果: {history} # 当前步骤: {current_step} 请仅输出针对“当前步骤”的回答: Reflection核心工作流程可以概括为一个简洁的三步循环执行 - 反思 - 优化。执行 (Execution)首先智能体使用我们熟悉的方法如 ReAct 或 Plan-and-Solve尝试完成任务生成一个初步的解决方案或行动轨迹。这可以看作是“初稿”。反思 (Reflection)接着智能体进入反思阶段。它会调用一个独立的、或者带有特殊提示词的大语言模型实例来扮演一个“评审员”的角色。这个“评审员”会审视第一步生成的“初稿”并从多个维度进行评估例如事实性错误是否存在与常识或已知事实相悖的内容逻辑漏洞推理过程是否存在不连贯或矛盾之处效率问题是否有更直接、更简洁的路径来完成任务遗漏信息是否忽略了问题的某些关键约束或方面 根据评估它会生成一段结构化的**反馈 (Feedback)**指出具体的问题所在和改进建议。优化 (Refinement)最后智能体将“初稿”和“反馈”作为新的上下文再次调用大语言模型要求它根据反馈内容对初稿进行修正生成一个更完善的“修订稿”。Reflection机制中的“执行-反思-优化”迭代循环环境与交互Observation观察→ Actor执行器/决策器→ Action动作→ 环境反馈External feedback返回给智能体。记忆层a.Trajectory短期记忆当前会话/任务过程中的序列轨迹包含观测、思考、动作、反馈等临时信息。b.Experience长期记忆跨任务可复用的经验、反思总结、教训与策略作为持久化知识库。评估与反思这次哪里做错/做对了应当采用的规则、约束、检查清单下次可直接复用的提示、策略反思文本被写入长期记忆Experience成为可检索的经验。Evaluator评估器对短期轨迹进行“内部评估”Internal feedback发现错误、风险、低效策略等。Self-reflection自我反思结合外部反馈与内部评估生成“Reflective text”反思文本可包含再次行动Actor 在新一步决策时既读取短期轨迹上下文也检索长期经验反思摘要、规则从而改进当前行动。与前两种范式相比Reflection 的价值在于它为智能体提供了一个内部纠错回路使其不再完全依赖于外部工具的反馈ReAct 的 Observation从而能够修正更高层次的逻辑和策略错误。它将一次性的任务执行转变为一个持续优化的过程显著提升了复杂任务的最终成功率和答案质量。它为智能体构建了一个临时的“短期记忆”。整个“执行-反思-优化”的轨迹形成了一个宝贵的经验记录智能体不仅知道最终答案还记得自己是如何从有缺陷的初稿迭代到最终版本的。更进一步这个记忆系统还可以是多模态的允许智能体反思和修正文本以外的输出如代码、图像等为构建更强大的多模态智能体奠定了基础。初始执行提示词这是智能体首次尝试解决问题的提示词内容相对直接只要求模型完成指定任务。INITIAL_PROMPT_TEMPLATE 你是一位资深的Python程序员。请根据以下要求编写一个Python函数。 你的代码必须包含完整的函数签名、文档字符串并遵循PEP 8编码规范。 要求: {task} 请直接输出代码不要包含任何额外的解释。 反思提示词这个提示词是 Reflection 机制的灵魂。它指示模型扮演“代码评审员”的角色对上一轮生成的代码进行批判性分析并提供具体的、可操作的反馈。REFLECT_PROMPT_TEMPLATE 你是一位极其严格的代码评审专家和资深算法工程师对代码的性能有极致的要求。 你的任务是审查以下Python代码并专注于找出其在strong算法效率/strong上的主要瓶颈。 # 原始任务: {task} # 待审查的代码: python {code}请分析该代码的时间复杂度并思考是否存在一种算法上更优的解决方案来显著提升性能。 如果存在请清晰地指出当前算法的不足并提出具体的、可行的改进算法建议例如使用筛法替代试除法。 如果代码在算法层面已经达到最优才能回答“无需改进”。请直接输出你的反馈不要包含任何额外的解释。 优化提示词当收到反馈后这个提示词将引导模型根据反馈内容对原有代码进行修正和优化。 python REFINE_PROMPT_TEMPLATE 你是一位资深的Python程序员。你正在根据一位代码评审专家的反馈来优化你的代码。 # 原始任务: {task} # 你上一轮尝试的代码: {last_code_attempt} 评审员的反馈 {feedback} 请根据评审员的反馈生成一个优化后的新版本代码。 你的代码必须包含完整的函数签名、文档字符串并遵循PEP 8编码规范。 请直接输出优化后的代码不要包含任何额外的解释。 尽管 Reflection 机制在提升任务解决质量上表现出色但这种能力的获得并非没有代价。在实际应用中我们需要权衡其带来的收益与相应的成本。1主要成本模型调用开销增加这是最直接的成本。每进行一轮迭代至少需要额外调用两次大语言模型一次用于反思一次用于优化。如果迭代多轮API 调用成本和计算资源消耗将成倍增加。任务延迟显著提高Reflection 是一个串行过程每一轮的优化都必须等待上一轮的反思完成。这使得任务的总耗时显著延长不适合对实时性要求高的场景。提示工程复杂度上升如我们的案例所示Reflection 的成功在很大程度上依赖于高质量、有针对性的提示词。为“执行”、“反思”、“优化”等不同阶段设计和调试有效的提示词需要投入更多的开发精力。2核心收益解决方案质量的跃迁最大的收益在于它能将一个“合格”的初始方案迭代优化成一个“优秀”的最终方案。这种从功能正确到性能高效、从逻辑粗糙到逻辑严谨的提升在很多关键任务中是至关重要的。鲁棒性与可靠性增强通过内部的自我纠错循环智能体能够发现并修复初始方案中可能存在的逻辑漏洞、事实性错误或边界情况处理不当等问题从而大大提高了最终结果的可靠性。综上所述Reflection 机制是一种典型的“以成本换质量”的策略。它非常适合那些对最终结果的质量、准确性和可靠性有极高要求且对任务完成的实时性要求相对宽松的场景。例如生成关键的业务代码或技术报告。在科学研究中进行复杂的逻辑推演。需要深度分析和规划的决策支持系统。反之如果应用场景需要快速响应或者一个“大致正确”的答案就已经足够那么使用更轻量的 ReAct 或 Plan-and-Solve 范式可能会是更具性价比的选择。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

相关新闻