)
目录一文吃透大模型 Agent 全部推理范式从看不懂 ReAct 到全体系落地技术完整博客一、先搞懂底层前因为什么会诞生各类推理范式1. 原生大模型天生缺陷2. 推理范式本质是什么3. 层级关系理清 ReAct 定位4. 和上下游技术的绑定关系二、从零拆解ReAct推理 Reasoning 行动 Acting彻底讲明白通俗大厨比喻完整闭环流程标准实例演示已替换北京天气ReAct 核心优势ReAct 短板标准适用场景三、基础原型CoT 思维链ReAct 的前身只有推理无行动通俗比喻核心逻辑优缺点适用场景四、多分支择优试错ToT 思维树 Tree of Thoughts通俗比喻核心逻辑优缺点适用场景五、网状互通高阶推理GoT 思维图 Graph of Thoughts通俗比喻核心逻辑优缺点适用场景六、先定全盘计划再执行Plan-and-Solve 规划执行范式通俗比喻核心逻辑优缺点适用场景七、ReAct 强力升级版Reflexion 自省反思范式通俗比喻核心逻辑优缺点适用场景八、自问自答拆解问题Self-Ask 自我提问范式通俗比喻核心逻辑优缺点适用场景九、多轮投票稳正确率CoT-SC 思维链自洽通俗比喻核心逻辑优缺点适用场景十、全范式快速选型对比表十一、工程落地搭配组合方案实操直接抄十二、完整大模型技术体系闭环复盘附赠ReAct 最简可运行 Python 测试代码归档问答记录前面我们梳理了 LangChain、AutoGen、CrewAI 等 Agent 工程框架很多人初次接触完全搞不懂 ReAct 到底是什么、为什么要推理加行动再加上市面上还有 CoT、ToT、Reflexion 等一大堆思考模式本篇从头拆解前因、通俗讲透 ReAct 内核完整盘点所有主流推理范式统一沿用之前大厨下厨比喻零基础也能看懂附带优缺点、场景、代码、技术链路归档。一、先搞懂底层前因为什么会诞生各类推理范式1. 原生大模型天生缺陷没加任何思考约束的大模型收到问题习惯一步直接吐出最终答案漏洞非常明显复杂计算题、多步骤任务容易逻辑断裂凭空编造答案AI 幻觉不会自主判断什么时候需要查资料、开计算器、读本地文档只依赖训练时记住的静态知识长任务一旦某一步思考出错没有回头修正、重新试错的能力AI 思考过程完全黑盒人看不到它怎么推导出错后很难调试排查。2. 推理范式本质是什么不靠重新训练、不改模型权重只用一段提示词强制规定 AI 输出思考格式倒逼 AI 把内心拆解、判断、动手操作、自我校验的全过程明文写出来。 简单说范式 给 AI 定一套标准 “思考写字模板”让 AI 从 “张口就答” 变成 “先想、再做、再核对”。3. 层级关系理清 ReAct 定位CoT只会脑子里分步想不能动手调用工具纯思考无行动ReAct在 CoT 基础上加行动环节一边思考一边调用工具拿真实数据思考 行动结合工业 Agent 标配ToT/GoT/Reflexion 等都是 ReAct/CoT 的升级变种适配超高难度、复盘、多分支场景4. 和上下游技术的绑定关系上游蒸馏 / 量化缩小模型体积、LoRA/SFT 调教对话风格、RAG 存入私有知识库中层核心推理范式决定 AI 拿到信息后怎么思考解题ReAct 是工具型智能体核心下游外壳LangGraph/AutoGen/CrewAI 框架负责循环调度、工具封装、多角色对话协作。二、从零拆解ReAct推理 Reasoning 行动 Acting彻底讲明白很多人卡在这里分不清 CoT 和 ReAct 的核心差别一句话区分 CoT 只在脑子里推演全程不动手查东西 ReAct 想一步能动手操作一步拿到真实反馈再继续想。通俗大厨比喻CoT 做法闭着眼回忆菜谱脑子里顺一遍洗菜、切菜、翻炒全过程凭记忆直接出锅 ReAct 做法心里思考Reasoning我要做番茄炒蛋家里有没有番茄不确定动手行动Acting打开冰箱查看食材对应 AI 调用工具天气 / 计算器 / 文档检索 / 搜索拿到观察结果Observation冰箱只有鸡蛋没有番茄再次推理没有番茄换成青椒炒蛋重新规划步骤 循环往复直到信息足够再出成品菜。完整闭环流程Thought推理思考→ Action执行工具动作→ Observation工具返回真实结果→ 新一轮Thought循环 → 信息充足输出Final Answer标准实例演示已替换北京天气提问2026 年 6 月 14 日北京气温多少 Thought我自身记不住实时天气必须调用天气查询工具获取准确数据 Actionget_weather (city北京,date2026-06-14) Observation北京当日 20~29℃晴天东南风 3 级空气质量优 Thought数据完整可靠可以整理文字回复用户 Final Answer2026 年 6 月 14 日北京气温 20 至 29℃天气晴朗东南风 3 级空气质量优ReAct 核心优势大幅压制幻觉所有结论依托外部真实数据不再靠模型记忆瞎编通用适配所有工具联网搜索、RAG 知识库、代码运行、数据库、API 接口全部兼容工程兼容性拉满LangGraph、AutoGen、CrewAI、Dify 所有 Agent 框架原生内置支持上手门槛适中仅提示词改造即可启用无需微调模型。ReAct 短板单线顺序推导不会同时并行试多条解决方案超长复杂任务容易陷入无限循环重复调用同一个工具没有自带自我复盘纠错机制一轮做完对错无法自查。标准适用场景市面 90% 落地 AI 智能体企业知识库问答、联网调研、代码编写调试、办公自动化、本地文件解析、机器人对话。三、基础原型CoT 思维链ReAct 的前身只有推理无行动通俗比喻闭脑回忆完整做菜步骤全程不看食材、不翻菜谱纯靠记忆分步脑补流程。 全称 Chain-of-Thought2022 谷歌提出第一个让 AI 分步思考的范式。核心逻辑纯线性单链条内心推演无任何工具调用环节问题→步骤 1→步骤 2→步骤 3→最终答案 示例计算(125-25)×4 Thought1括号内 125 减 25 等于 100 Thought2100 乘以 4 结果为 400 Final Answer400优缺点✅ 零成本启用一句Lets think step by step即可生效简单数学、文本理解效果提升明显不用对接任何工具 ❌ 无法获取实时、私有外部数据幻觉严重一步思考错误全盘崩盘不能搭配检索、计算器等工具适用场景简单计算题、短文阅读理解、无资料依赖的纯逻辑简答。四、多分支择优试错ToT 思维树 Tree of Thoughts通俗比喻一道创新菜同时设计三套调味方案小份试吃打分淘汰难吃路线优质方案继续细化优化不行就退回上一步换思路。核心逻辑打破 CoT/ReAct 单条链路每一步生成多条平行思考分支打分筛选低分丢弃、高分延伸支持回溯重来可嵌套 ReAct 实现分支内工具调用。优缺点✅ 超高难度推理能力碾压 CoT / 原生 ReAct支持回溯改错奥数、博弈、复杂规划精度极高 ❌ Token、算力消耗翻倍速度慢实现复杂普通业务 Agent 很少单独使用适用场景数学竞赛、高难度算法题、项目方案规划、棋局博弈、多约束复杂决策。五、网状互通高阶推理GoT 思维图 Graph of Thoughts通俗比喻后厨多道菜同步制作不同菜品的火候、调味技巧互相借鉴A 方案半成品可以合并优化 B 方案分支不再是简单上下级树形关系。核心逻辑ToT 树结构升级为有向图推理链路可交叉、合并、双向传递信息适配极度错综复杂的多维度任务。优缺点✅ 当前推理能力理论天花板多业务融合统筹能力最强 ❌ 算力开销最大、部署难度极高仅限科研与头部大企业项目个人开发者几乎不用适用场景大型系统架构设计、多业务集群统筹、复杂科研实验、超大尺度多模态任务。六、先定全盘计划再执行Plan-and-Solve 规划执行范式通俗比喻办宴席先写完整菜单、备菜时序、分工耗时全局总计划之后严格按清单一步步做菜不临时大变方向ReAct 是走一步看一步这个是先画完整地图再赶路。核心逻辑两大固定阶段Plan 阶段一次性拆解全部子任务输出完整全局步骤Solve 阶段按计划逐个子任务执行子步骤内部可以套 ReAct 调用工具。优缺点✅ 超长任务不容易跑偏步骤可控可人工修改审核长文档、大型项目稳定性优于原生 ReAct ❌ 开局计划一旦写错后续全部跟着出错随机突发情况应变灵活性差适用场景万字报告撰写、完整软件开发流水线、大规模市场调研、批量多步骤自动化任务。七、ReAct 强力升级版Reflexion 自省反思范式通俗比喻一整道菜做完先自我试吃复盘记录哪里咸、火候不足、步骤遗漏带着问题总结重新优化复刻也可以每小步操作完微型反思ReflAct 变体。核心逻辑在 ReAct/Plan-and-Solve 完整流程结束后新增独立自省环节跑完一轮思考 行动拿到结果AI 自我批判工具调用冗余、逻辑漏洞、信息缺失、回答错误携带反思总结重新迭代一轮优化输出。优缺点✅ 大幅降低错误、减少无效工具请求迭代一次比一次精准直接嵌套改造现有 ReAct 代码即可升级 ❌ 每轮多一轮思考token 耗时增加简单小任务使用性价比很低适用场景高精度代码调试、财务合规分析、严谨文书撰写、数据校验类智能体。八、自问自答拆解问题Self-Ask 自我提问范式通俗比喻拿到陌生菜谱不停向自己抛出小问题要什么食材油温多少腌制多久逐个自问自答拆分大难题。核心逻辑AI 不硬推答案主动生成子问题逐个击破子问题过程中可以嵌入工具调用最后汇总所有子答案输出完整结果。 示例如何本地部署 Qwen 量化模型 Self-Ask1最低需要多少显存→16G 显卡起步 Self-Ask2主流量化工具是什么→AWQ、GPTQ Self-Ask3Ollama 运行指令→ollama pull qwen2:7b 最后整合所有信息给出完整教程优缺点✅ 模糊开放问题拆解能力强逻辑清晰幻觉少于纯 CoT ❌ 步骤繁琐拉长响应时间工具协同流畅度不如原生 ReAct适用场景科普教程、开放式调研、模糊需求拆解类任务。九、多轮投票稳正确率CoT-SC 思维链自洽通俗比喻同一道菜让三位厨师独立分步制作三份成品对比选用口味最统一的一套做法作为最终标准。核心逻辑同一个问题模型独立生成 N 条完全不同的 CoT 推理链路多条答案投票多数一致结果定为最终输出无行动工具能力纯内部推理。优缺点✅ 数学、考试计算题准确率大幅提升抵消单次推理偶然失误 ❌ 算力成本翻 N 倍完全不能搭配搜索、文档等外部工具适用场景公考行测、数学考试、纯数值计算、高正确率要求的闭卷答题。十、全范式快速选型对比表推理范式核心特点有无工具调用能力推理精度速度 Token 成本新手友好度首选落地场景CoT单线内心分步思考只有推理无行动❌中中★★★★★简单数学、纯文本简答ReAct推理 行动循环交替标准工具交互底座✅行业标配中高中★★★★90% 通用 Agent、RAG、检索办公自动化ToT多分支试错支持回溯择优✅可嵌套 ReAct极高高慢、费 token★★☆奥数、博弈、复杂方案规划GoT网状多链路互通融合推理✅行业天花板极高★☆科研、大型政企统筹项目Plan-and-Solve全局先出完整计划再分步执行✅计划内套行动高中慢★★★☆长报告、整套软件开发、大型调研ReflexionReAct 执行后自我复盘纠错迭代✅ReAct 增强版高且越迭代越稳中慢★★★代码调试、合规财务、高精度文书Self-AskAI 自问自答拆分大问题✅子问题可调用工具中高慢★★★模糊提问、教程科普、需求拆解CoT-SC多套 CoT 答案投票择优❌极高很高多轮生成★★☆考试、纯数值计算题十一、工程落地搭配组合方案实操直接抄新手本地最低成本 AgentOllama 量化 Qwen 模型 LangGraph 框架 原生 ReAct平衡简单、稳定、够用代码开发、高精度排错场景底层 ReAct 循环 Reflexion 自省复盘搭配 AutoGen 多角色协作长篇报告、整套软件工程项目Plan-and-Solve 输出顶层方案每一个子任务内部跑 ReAct 调用工具数学竞赛、高难度推理题ToT 多分支推演 CoT-SC 投票双重拉高准确率企业合规知识库问答ReAct 调用 LlamaIndex 读取文档 Reflexion 校验引用来源杜绝虚假引用十二、完整大模型技术体系闭环复盘模型瘦身层蒸馏、量化、剪枝第一篇博客内容把大模型缩小适配本地电脑模型调教层基座预训练 → SFT 有监督微调 → LoRA 轻量微调 → DPO 人类偏好对齐教会模型好好说话知识增强层RAG 向量知识库灌入企业私有文档、实时资料AI 思考内核层本文CoT/ReAct/ToT/Reflexion 等推理范式决定 AI 怎么分析、思考、动手干活工程调度外壳层LangGraph/AutoGen/CrewAI/Dify负责循环、多角色、工具封装、接口发布一句话总结 大模型只是空白大脑微调教会它规范对话RAG 给它专属参考资料ReAct 是让 AI 从只会聊天变成能动手办事的核心基石各类衍生范式用来拔高特殊场景精度Agent 框架提供运行平台蒸馏量化让整套体系能在普通家用电脑离线跑起来。附赠ReAct 最简可运行 Python 测试代码from langchain.agents import create_react_agent, AgentExecutor from langchain_openai import ChatOpenAI from langchain.tools import CalculatorTool from langchain.prompts import PromptTemplate # 对接本地Ollama部署的Qwen2-7B量化模型 llm ChatOpenAI(modelqwen2:7b, base_urlhttp://127.0.0.1:11434/v1, api_keydummy) tools [CalculatorTool()] # 标准ReAct提示词模板强制思考行动格式 prompt PromptTemplate.from_template( 严格按照ReAct格式回答问题 Thought:写下你的内心推理思考 Action:工具名称(参数内容) Observation:工具返回的真实结果 循环往复信息足够后输出Final Answer 可用工具{tools} 用户问题{input} 思考记录区{agent_scratchpad} ) # 初始化ReAct智能体 agent create_react_agent(llm, tools, prompt) executor AgentExecutor(agentagent, toolstools, verboseTrue, max_iterations5) # 测试计算任务 result executor.invoke({input:(456144)*22等于多少}) print(result[output])开启verboseTrue会完整打印每一轮 Thought→Action→Observation 循环直观看清 ReAct“思考 行动” 全过程。归档问答记录大模型 Agent 主流推理范式有哪些共 8 套成熟范式CoT、ReAct、ToT、GoT、Plan-and-Solve、Reflexion、Self-Ask、CoT-SCReAct 是工具型智能体工业标准CoT 是所有推理范式的基础原型。ReAct 里的推理Reasoning和行动Acting分别是什么推理 ReasoningAI 内心分析判断思考缺什么信息、要不要调用工具、调用哪个工具 行动 ActingAI 执行外部操作比如查天气、运行计算器、读取文档、联网搜索、调用 API 二者循环交替就是 ReAct 独有的核心逻辑区别于只思考不动手的 CoT。各推理范式适用场景、优缺点汇总文中表格 分章节已逐条拆解简单速记通用干活用 ReAct纯做题用 CoT/CoT-SC难题多试路用 ToT写大方案先 Plan追求零错误加 Reflexion。