
大模型 Agent 生态综述1. 大模型 Agent 概述1.1 什么是 AI AgentAI Agent智能体是一种能够自主感知环境、制定决策、调用工具并执行行动以完成目标的 AI 系统。与传统的“提问-回答”式大语言模型LLM不同Agent 具备以下核心特征•感知Perception接收和理解外部输入包括用户指令、环境状态、其他 Agent 的消息•推理Reasoning利用 LLM 进行逻辑推理、任务规划和决策分析•行动Action通过工具调用Function Calling与外部世界交互如查询数据库、调用 API、操作文件等•记忆Memory维护对话历史、任务状态和中间结果支持多轮交互和长期任务1.2 Agent 的核心架构Agent 的运作通常遵循一个循环流程用户提出任务 → Agent 理解并规划 → 选择并调用工具 → 观察工具返回结果 → 继续推理或返回最终答案。这个循环可以多次迭代直到任务完成。在这个架构中Function Calling 和 ReAct 是两种核心的工具调用范式MCP 和 A2A 是两种关键的通信协议而 LangGraph 则是用于编排和管理 Agent 工作流的开发框架。2. Function Calling函数调用2.1 概念介绍Function Calling函数调用是大语言模型原生支持的一种能力允许模型根据用户输入自动生成结构化的函数调用请求。当模型判断需要调用外部工具时会输出一个 JSON 格式的函数调用描述包含函数名和参数由应用程序执行实际调用并将结果返回给模型。2.2 工作原理Function Calling 的工作流程如下1.开发者向模型注册可用的函数列表包含函数名、描述、参数 Schema2.用户发送查询模型分析是否需要调用函数3.模型返回结构化的函数调用请求JSON 格式4.应用程序执行实际函数并获取结果5.将函数结果作为新的消息发送给模型模型生成最终回答2.3 优势与局限优势局限模型原生支持集成简单依赖模型对 Function Calling 的微调质量结构化输出解析稳定可靠对模型参数量和训练有较高要求多函数并行调用支持推理过程不透明难以追踪决策逻辑响应速度快适合简单任务复杂多步任务的规划能力较弱3. ReAct 框架推理-行动3.1 概念介绍ReActReasoning Acting是一种经典的 Agent 架构范式源自论文《ReAct: Synergizing Reasoning and Acting in Language Models》。它将推理Reasoning和行动Acting结合在一起让模型在每一步都显式地展示其思考过程然后决定下一步的行动。3.2 工作原理ReAct 采用“思考-行动-观察”的交替循环模式1.Thought模型用自然语言表达其当前的思考和推理过程2.Action基于推理结果选择并执行一个工具调用3.Observation接收工具返回的结果作为下一轮推理的输入4.循环直到模型判断任务完成输出 Final Answer3.3 优势与局限优势局限推理过程完全透明可解释性强每步都需要一次完整的 LLM 调用延迟较高对模型要求较低不依赖原生 FC 支持输出格式为自然语言解析可能不稳定擅长多步推理、复杂规划任务开放式任务中可能出现无限循环灵活度高可处理未预定义的工具提示词设计对效果影响较大4. Function Calling 与 ReAct 对比两者并非互斥而是不同的工具调用范式适用于不同场景维度Function CallingReAct设计哲学模型原生能力结构化调用提示词引导自然语言推理通信方式模型输出 JSON 结构体模型输出自然语言文本推理透明度低只看到调用结果高每步都有 Thought对模型要求高需微调支持 FC低通用 LLM 即可响应速度快通常 1-2 轮较慢多轮循环适用场景单步/少量工具调用复杂多步规划任务典型框架OpenAI Tools、Claude ToolsLangChain ReAct Agent、HuggingGPT实际应用中许多框架如 LangChain已经将两者融合用 Function Calling 作为底层调用机制用 ReAct 的推理逻辑作为上层规划策略。5. MCP模型上下文协议5.1 概念介绍MCPModel Context Protocol模型上下文协议是由 Anthropic 于 2024 年 11 月提出的开放协议旨在标准化 AI 模型与外部数据源、工具和服务之间的连接方式。MCP 被称为“AI 时代的 HTTP”它为 Agent 连接工具提供了统一的标准。截至 2025 年底MCP 已经发布多个版本规范并由 Agentic AI Foundation 管理已成为行业事实上的标准协议。5.2 核心架构MCP 采用客户端-服务器Client-Server架构基于 JSON-RPC 2.0 通信•MCP Host宿主应用如 Claude Desktop、IDE 插件维护与用户的交互和与 MCP Server 的连接•MCP Client协议客户端与特定的 MCP Server 保持 1:1 连接•MCP Server轻量级服务通过标准化接口向 Client 暴露工具、资源和提示模板5.3 三大核心能力能力说明示例Tools工具Agent 可调用的函数数据库查询、API 调用、代码执行Resources资源向 Agent 提供上下文数据文件内容、数据库记录、内部文档Prompts提示可重用的提示模板预设的分析流程、专家角色配置5.4 应用场景•IDE 集成让 AI 编码助手访问本地文件、数据库和 API•企业工具集成统一接入内部系统CRM、ERP、知识库•数据连接器标准化数据源接入如 PostgreSQL、Slack、GitHub 等 MCP Server•Agent 工具扩展为 Agent 动态添加新的工具能力无需修改代码6. LangGraphAgent 编排框架6.1 概念介绍LangGraph 是 LangChain 团队开发的用于构建有状态、多步骤 AI 应用的框架。它以图Graph的形式对 Agent 工作流进行建模其中节点Node代表处理逻辑边Edge代表控制流。LangGraph 已于 2025 年达到 v1.0 里程碑2026 年初发布 v1.1提供了生产级的持久化状态管理和流式处理能力。6.2 核心概念概念说明State状态共享的数据结构在节点间传递和累积信息Node节点执行特定逻辑的函数接收状态并返回更新后的状态Edge边定义节点之间的转换逻辑可以是固定路径或条件分支Checkpoint检查点状态持久化点支持中断恢复和时间旅行Command命令v1.0 新增的节点间通信机制替代传统的 return 方式6.3 核心特性•持久化状态执行状态自动持久化服务重启后可从中断点恢复•时间旅行支持回溯和重放任何状态点便于调试和审计•人机协作interrupt() 函数支持在执行过程中暂停等待用户确认•流式处理v1.1 引入统一的 v2 流式格式支持实时输出流•多 Agent 编排支持构建多个 Agent 协作的复杂工作流6.4 应用场景•多步骤工作流如文档分析、数据处理管道、自动化流程•多 Agent 协作如 Supervisor 模式、层级规划、流式协作•需要状态管理的对话系统如客服机器人、项目管理助手7. A2AAgent-to-Agent 协议7.1 概念介绍A2AAgent-to-Agent是由 Google 于 2025 年 4 月发布的开源协议Apache-2.0 许可现由 Linux Foundation 管理。它定义了独立 AI Agent 之间如何发现、认证和交互的标准方式无论它们使用何种底层实现或托管平台。7.2 核心组件组件说明AgentCard声明式元数据对象描述 Agent 的能力、技能和接口类似于 API 文档Task代表一个需要执行的工作单元包含状态和历史记录Message/Part结构化消息格式支持文本、文件、数据等多种类型7.3 核心能力•服务发现Agent 通过 AgentCard 自动发现其他 Agent 的能力和接口•任务委派支持将子任务委派给其他 Agent 并跟踪执行状态•流式通信支持 SSEServer-Sent Events实时推送任务更新•身份认证内置身份验证和授权机制确保跨组织安全交互•状态迁移历史可选暴露任务的状态变更历史便于审计和调试7.4 应用场景•多 Agent 协作不同团队开发的 Agent 互相配合完成复杂任务•跨组织 Agent 交互企业间的 Agent 安全协作•Agent 市场生态构建可以发现和调用彼此服务的 Agent 网络8. MCP 与 A2A 对比MCP 和 A2A 并非竞争关系而是互补的两层协议共同构成了 Agent 生态的通信基础设施维度MCPA2A发起方AnthropicGoogleLinux Foundation核心问题Agent 如何连接工具Agent 如何与其他 Agent 对话通信方向Agent → Tool单向Agent ↔ Agent双向通信协议JSON-RPC 2.0结构化消息HTTP/SSE状态管理基于上下文的状态追踪基于任务的状态管理发现机制工具描述Tool DescriptionsAgentCard声明式元数据定位垂直集成层Agent 连接工具水平协作层Agent 连接 Agent简单来说MCP 解决的是“Agent 如何使用工具”的问题A2A 解决的是“Agent 如何与其他 Agent 协作”的问题。在一个完整的多 Agent 系统中两者通常会同时使用。9. 生态全景总结9.1 技术协议栈当前大模型 Agent 生态可以理解为一个分层的协议栈层级技术作用底层调用范式Function Calling / ReActAgent 与 LLM 交互的基本方式工具集成层MCPAgent 连接外部工具和数据源的标准Agent 编排层LangGraph构建和管理复杂 Agent 工作流的框架Agent 协作层A2A多 Agent 之间的标准化通信协议9.2 实际应用中的组合在实际项目中这些技术通常是组合使用的单 Agent 场景LLM Function Calling/ReAct MCP 工具连接复杂工作流LangGraph 编排多个 Agent 节点 MCP 工具集成多 Agent 协作LangGraph 编排 A2A 协作 MCP 工具连接跨组织网络A2A 实现不同组织的 Agent 互联互通9.3 发展趋势协议标准化MCP 和 A2A 正在成为行业事实标准Gartner 预测到 2026 年底40% 的企业应用将嵌入 AI Agent。工具调用融合Function Calling 和 ReAct 的融合趋势明显框架层面统一封装。多 Agent 网络从单个 Agent 向 Agent 网络演进A2A 为跨组织协作提供基础。安全与治理随着 Agent 自主性增强安全、隐私和治理机制成为重点关注领域。