
目录✨Agent 基础框架的四大核心模块✨1. 感知模块 (Perception Module) —— Agent的“五官”✨2. 大脑模块 (Brain Module) —— Agent的“CPU和操作系统”✨3. 执行模块 (Execution Module) —— Agent的“手脚”✨4. 记忆模块 (Memory Module) —— Agent的“笔记与档案”✨完整的运行流程示例一个“旅行规划Agent”✨总结✨面试回答简单来说Agent的基础框架是一个“感知-决策-执行-学习”的闭环循环系统。它的核心思想是让一个智能体Agent能够像人一样观察环境、思考判断、采取行动并从行动结果中学习改进。我们可以把一个标准的Agent框架拆解为四大核心模块它们相互作用构成了Agent的灵魂。Agent 基础框架的四大核心模块1. 感知模块 (Perception Module) —— Agent的“五官”这是Agent与外部环境交互的入口。它负责接收并理解来自环境、用户或其他Agent的信息。功能将原始、非结构化的数据如文字、图像、语音、传感器读数转化为Agent内部可以理解和处理的结构化状态。关键技术文本感知读取用户输入的Prompt或系统指令。多模态感知利用视觉语言模型VLM识别图像、理解视频帧利用语音识别模型ASR处理音频。结构化数据感知解析JSON、XML、数据库查询结果等。输出一个结构化的“状态”State描述作为大脑模块的输入。2. 大脑模块 (Brain Module) —— Agent的“CPU和操作系统”这是最核心、最复杂的部分负责所有决策和逻辑处理。我们也可以把大语言模型LLM看作大脑的“思考皮层”。大脑模块内部又可以细分为几个关键子模块A. 意图理解与任务分解功能解析用户的模糊指令明确其真实意图。然后将一个复杂任务如“帮我分析一下特斯拉第三季度的财报并写一份摘要”分解成一系列可执行的、有序的子任务或步骤。示例任务分解为1. 搜索并获取特斯拉Q3财报-2. 提取关键财务数据收入、利润、交付量-3. 概括管理层评论-4. 整理成摘要格式。B. 规划与决策 (Planning Reasoning)功能制定达成目标的行动计划。它会根据当前状态和分解后的任务决定下一步要做什么是调用一个工具还是生成一段文本还是询问用户。这一过程常需要推理能力。关键技术Chain-of-Thought (CoT)通过“让我们一步步思考”来引导模型进行复杂推理。Tree-of-Thoughts (ToT)探索多种推理路径并选择最优解。ReAct (Reason Act)交替进行“推理”和“行动”让模型思考当前情况并决定下一步行动。计划-执行 (Plan-and-Execute)先制定完整的计划步骤然后再逐步执行。C. 工具调用 (Tool Use / Function Calling)功能这是Agent突破语言模型局限的关键。Agent需要调用外部工具来获取实时信息、执行计算、操作软件等。LLM会生成一个特殊的结构化输出如JSON指定要调用哪个工具以及传入什么参数。工具示例搜索引擎API、计算器、代码解释器Python、数据库查询器、日历应用、发送邮件函数、甚至是操控机械臂的API。流程大脑决策: 需要查询天气-生成: { tool: get_weather, params: {city: Beijing} }-执行模块调用工具-将结果返回给大脑。3. 执行模块 (Execution Module) —— Agent的“手脚”这个模块负责将大脑的决策转化为对环境的具体操作。功能接收大脑模块发来的具体动作指令并精确地执行它。执行后环境状态会发生变化。动作类型原子动作一次简单的操作如“点击按钮”、“发送文本”、“调用一次API”。复合动作由一系列原子动作组成的脚本。输出动作直接生成回复给用户这是最常用的一种“执行”。反馈执行完成后该模块会将执行结果成功/失败、返回的数据反馈给大脑模块形成闭环。大脑模块会据此判断下一步行动。4. 记忆模块 (Memory Module) —— Agent的“笔记与档案”这是让Agent能进行多轮交互和长期学习的关键。没有记忆Agent每次对话都是“失忆”的。记忆分为两大类短期记忆 (Short-term Memory)对应当前对话的上下文。实现将所有对话历史用户指令、Agent的推理和行动、工具返回结果都放在LLM的上下文中Context Window。缺点是受限于模型的最大上下文长度。长期记忆 (Long-term Memory)对应在多个会话中持久化的知识或经验。实现通常使用向量数据库。Agent会将重要的信息如用户的偏好、已解决过的问题、领域知识进行向量化嵌入Embedding并存储。当需要回忆时它会对问题做同样的向量化去数据库中检索最相关的信息然后将这些信息注入到当前的工作上下文中。用途事实记忆“用户上周说过他喜欢喝美式咖啡。”过程记忆“上次解决数据库连接错误时我重启了服务并清理了缓存。”经验学习通过反馈如用户点击“不喜欢”来调整未来行为。完整的运行流程示例一个“旅行规划Agent”让我们用一个具体例子串联起所有模块用户输入“帮我规划一个去东京的5天4晚旅行计划预算中等我比较喜欢动漫文化。”感知模块接收文本将其转化为内部状态UserIntent: travel_planning, Destination: Tokyo, Duration: 5days, Preference: anime。大脑模块短期记忆加载Agent的短期记忆上下文中包含当前这个用户请求。任务分解大脑内部将任务分解为子任务Step 1: 搜索东京动漫相关景点秋叶原、三鹰之森吉卜力美术馆等。Step 2: 查找中等价位的住宿推荐。Step 3: 规划每天的交通路线。Step 4: 生成完整的日程表。规划与工具调用推理“我需要获取实时信息因为我的内部知识可能过时且没有具体预算信息。”动作1调用web_search工具参数query东京 动漫景点 推荐 最新动作2调用map_search工具参数locationTokyo, query中等价位酒店 靠近秋叶原执行模块并行或顺序调用真实的网络搜索API和地图API并将结果景点列表、酒店列表返回给大脑。大脑再决策收到工具返回的原始信息后大脑模块利用LLM的生成能力结合所有信息规划出一条合理的、包含日期、景点、住宿、饮食建议的5日行程。执行模块输出将最终生成的计划文本输出给用户。记忆模块长期在这次对话结束后Agent可以将“用户张三偏好动漫文化目的地东京”这条信息存储到长期记忆中。下次该用户再问“帮我推荐一部动漫主题的旅行目的地”时Agent就能检索到这条记忆并给出个性化建议。总结模块类比人类核心作用关键技术感知模块五官接收并转化外界信息多模态模型、结构化解析大脑模块大脑核心决策中心理解、分解、规划、调用工具LLM、CoT/ToT/ReAct、Function Calling执行模块手脚执行决策对环境产生实际影响API调用、代码执行、机器人控制记忆模块笔记/经验保存短期上下文和长期知识上下文窗口、向量数据库、Embedding最重要的核心思想LLM作为“推理引擎”Agent不是简单地生成文本回复而是把LLM当作“思考核心”来生成决策、规划和工具调用指令。闭环循环感知 - 决策 - 执行 - 再感知...这个循环让Agent能够应对动态、复杂的任务。工具扩展能力Agent的能力边界由其可调用的工具集决定。通过工具Agent可以操作整个世界数字或物理。面试回答一个 Agent 的基础框架本质上就是一个‘感知-决策-执行’的闭环循环系统。具体拆开看我把它理解为四个必须的模块大脑模块这是核心。它不负责输出最终答案而是负责推理。比如‘我现在该用哪个工具用户到底要什么’——典型代表是 ReAct 模式推理行动。感知模块Agent 怎么接收信息不只是文本还有图像、语音、甚至系统报错日志。这一步决定它能否理解当前状态。执行模块这是 Agent 的‘手和脚’。比如调用搜索引擎、写代码、发API请求。记忆模块要分两层——短期记忆当前对话上下文像人脑子里想着的事和长期记忆存在向量数据库里的历史知识像人翻笔记本举个例子我要 Agent 帮我订杯咖啡感知听到‘我渴了’大脑推理出‘需要订咖啡’记忆想起我上周点的是冰美式执行调用外卖 API 下单。这就跑完了一个完整的 Agent 循环。如果小假的内容对你有帮助请点赞评论收藏。创作不易大家的支持就是我坚持下去的动力