收藏!小白程序员必看:智能体AI中大型语言模型的隐藏成本与优化策略

发布时间:2026/5/19 0:13:46

收藏!小白程序员必看:智能体AI中大型语言模型的隐藏成本与优化策略 本文深入探讨了智能体AI系统中大型语言模型LLM调用的成本问题特别是非功能性调用的隐藏成本。文章首先介绍了智能体AI平台的参考架构包括推理模块、智能体市场、编排模块等关键组件。接着文章详细分析了智能体AI的财务运维含义涉及模型、计算、存储、网络等多个成本维度。重点在于非功能性LLM调用如记忆管理、评估和护栏可能导致2-3倍的调用量远超直接执行智能体功能所需的调用。文章还讨论了LLM推理的规模确定包括输入输出上下文窗口、模型大小、延迟和吞吐量等因素并强调了智能体AI推理中上下文窗口大小的重要性。最后文章提出了LLM调用类型包括功能性调用和非功能性调用并详细分析了记忆管理、评估层和智能体护栏中的LLM调用场景。整体而言本文为理解和优化智能体AI中LLM调用成本提供了全面而实用的指导。智能体AI中非功能性大型语言模型调用的隐藏成本1. 引言关于ChatGPT generatively AI总体而言的讨论现在已经演变为智能体AI。ChatGPT主要是一个可以生成文本回复的聊天机器人而智能体AI可以自主执行复杂任务例如完成销售、规划旅行、预订航班、预约承包商做家务、订购披萨。图1说明了智能体AI系统的演进。图1智能体AI的演进图片由作者提供比尔·盖茨近期预见了一个未来我们拥有能够处理自然语言并完成多项不同任务的智能体。盖茨以规划旅行为例通常情况下这需要你自己预订酒店、航班、餐厅等。但智能体能够利用它对你偏好的了解代表你预订和购买这些东西。智能体AI系统的关键特征是它们的自主性和推理能力使其能够将复杂任务分解为更小的可执行任务然后以能够监控、反思和自我纠正执行的方式协调其与集成外部工具的执行。鉴于这一点智能体AI有可能颠覆当今企业中几乎每一种业务流程。随着企业在智能体AI采用方面的加速重点正从智能体开发转向以高效和治理的方式部署它们。是的智能体可以高效执行工作流流程但它们是有成本的。因此成本正在成为智能体生态系统中的一等公民。类似于广告 broker我们预计在不久的将来会出现智能体broker平台智能体提供商可以对任务进行竞标——执行将授予最可靠且成本效率最高的竞标者。鉴于此我们在本文中关注智能体的成本方面特别是智能体工作流中大型语言模型调用的成本。我们都知道大型语言模型调用是昂贵的因此为了在大型语言模型调用方面实现财务运维卓越我们需要理解智能体工作流执行期间大型语言模型调用的目的以及如何优化它们。当我们思考当今智能体执行中的大型语言模型调用时我们主要考虑将大型语言模型用于推理步骤给定目标和可用智能体注册表生成最优计划并选择执行该计划的智能体。智能体执行可能需要大型语言模型调用来满足智能体功能例如总结、生成个性化电子邮件等。然而我们在本文中强调的是非功能性方面例如记忆、评估和护栏可能导致2-3倍的大型语言模型调用——超过直接执行智能体功能所需的调用。本文的其余部分组织如下。我们首先在第2节概述智能体AI平台的参考架构。在第3节我们概述智能体AI的财务运维含义全面审视所有涉及的因素例如模型、计算、存储、网络。我们在第4节深入探讨模型成本方面解释智能体背景下的大型语言模型推理特别关注非功能性大型语言模型调用。第5节以未来工作方向作为本文的结论。2. 智能体AI参考架构在本节中我们概述智能体AI平台参考架构的关键模块——如图2所示推理模块将复杂任务分解并调整其执行以实现给定目标智能体市场现有和可用智能体的市场编排模块编排和监控观察多智能体系统的执行集成模块MCP工具用于与企业系统集成例如ERP、CRM、知识库智能体间数据和上下文共享的共享记忆管理治理层包括可解释性、隐私、安全、安全护栏等。图2智能体AI平台参考架构图片由作者提供给定用户任务智能体AI平台的目标是识别组合能够执行给定任务的智能体智能体组。因此我们需要的第一个组件是一个能够将任务分解为子任务的推理模块各智能体的执行由编排引擎协调。思维链CoT是当今最广泛使用的分解框架将复杂任务转化为多个可管理的任务并阐明对模型思维过程的解释。此外ReAct推理和行动框架允许智能体批判性地评估其自身的行动和输出从中学习然后随后完善其计划/推理过程。智能体组合意味着存在智能体智能体市场/注册表——其中包含对智能体能力和约束的明确定义。例如Agent2AgentA2A协议规定了智能体卡片一个JSON文档的概念作为智能体的数字名片。它包括以下关键信息Identity: name, description, provider information. Service Endpoint: The url where the A2A service can be reached. A2A Capabilities: Supported protocol features like streaming or pushNotifications. Authentication: Required authentication schemes (e.g., Bearer, OAuth2) to interact with the agent. Skills: A list of specific tasks or functions the agent can perform (AgentSkill objects), including their id, name, description, inputModes, outputModes, and examples.鉴于需要编排多个智能体存在对支持不同智能体交互模式的系统集成模块的需求例如智能体到智能体API、提供供人消费的输出的智能体API、触发AI智能体的人、循环中带人的AI智能体到智能体。集成模式需要由底层智能体操作系统平台支持。同样重要的是提到与企业系统例如本例中的CRM的集成在大多数用例中都是需要的。请参阅Anthropic的模型上下文协议MCP它似乎已成为将AI智能体连接到外部系统企业数据所在之处的事实标准。鉴于复杂智能体的长期运行性质记忆管理对于智能体AI系统至关重要。这既涉及任务之间的上下文共享也涉及长期维护执行上下文。这里的标准方法是将智能体信息的嵌入表示保存到向量存储数据库中该数据库支持最大内积搜索MIPS。为了快速检索使用近似最近邻ANN算法返回大约top k个最近邻在巨大速度增益与准确性之间进行权衡。最后是治理模块。我们需要确保用户针对特定任务共享的数据或跨任务的用户profile数据仅与相关智能体共享表/报告认证和访问控制。请参阅我之前的文章《负责任的AI智能体》了解在幻觉护栏、数据质量、隐私、可重现性、可解释性、人在环HITL等方面实现良好治理的AI智能体平台所需的关键维度。3. 智能体AI成本考量智能体AI的财务运维可以定义为将财务、工程和业务结合在一起的最佳实践通过最大化价值并确保财务问责来管理智能体AI成本。它涉及使用数据驱动的洞察来管理敏捷性、治理、成本与投资回报率之间的权衡赋予企业通过资源合理调整和高效分配来主动优化AI支出的能力。在典型的智能体AI场景中它将是以下方面的组合计算基础设施模型大型语言模型LLM/小型语言模型SLM存储记忆、向量数据库搜索等让我们考虑一个参考场景LangGraph作为智能体开发框架部署在Azure Kubernetes ServiceAKS上LangGraph通过内部API或托管运行时编排智能体执行。智能体通过自定义逻辑或工具部署——作为AKS上的容器化智能体端点。AI Search索引企业数据向量文本并作为检索增强生成RAG知识源。AKS pod调用AI Search和/或模型端点例如Azure OpenAI GPT或Azure Foundry中经过微调的LLM/SLM。存储在Azure Monitor with Application Insights中的OpenTelemetry日志。然后成本计算需要考虑以下参数——基于AKS pod读写、搜索查询延迟有多少智能体pod并发运行每个智能体的平均智能体容器镜像大小为2-4 GB × 并发会话。AKS中暂存或缓存了多少LLM/检查点平均为1-10 GBtokenizer、本地权重、嵌入缓存。AKS ↔ AI Search/AI Foundry之间的流量延迟say 200 ms。向量存储就嵌入大小而言在AI Search中索引可以根据用例从100 MB到100 GB不等。日志量约为每100个会话每天100 MB。对于5个并发运行的智能体代表性的数量指标为5个pod × 2 vCPU × 6 GB RAM每个 → 10 vCPU30 GB RAM每个pod缓存5 GB → 25 GB临时SSD每天1 GB日志 → 10 GB每天遥测向量数据~25 GB总计存储在AI Search中虽然上述内容侧重于理解智能体基础设施成本但我们在下一节侧重于分析大型语言模型调用——考虑到它们仍然占整体智能体系统成本的大部分。4. 大型语言模型调用成本在本节中我们深入探讨大型语言模型推理方面例如可观测性、延迟、吞吐量、非确定性等——对于大规模部署多智能体系统MAS至关重要。我们首先考虑影响大型语言模型推理的维度例如输入和输出上下文窗口模型大小首个token延迟、token间延迟、最后一个token延迟吞吐量然后我们将相同的逻辑推断到智能体AI将token延迟映射到第一个智能体与完整智能体编排的执行延迟将前置智能体的输出与整体执行状态/上下文理解一起考虑作为后续智能体输入上下文窗口大小的一部分最后适应智能体执行中固有的非确定性。特别地我们引入补偿的概念作为回滚策略以适应智能体目标变化和执行失败。4.1 大型语言模型推理规模确定大型语言模型推理规模确定取决于许多用例维度例如输入和输出上下文窗口高级层面单词被转换为token像Llama这样的模型运行约4k-8k个token或者大约3000-6000个英语单词。模型大小我们是以全精度运行模型还是量化版本首个token延迟、token间延迟、最后一个token延迟最后吞吐量定义为大型语言模型在给定时期内可以处理的请求数量。让我们首先考虑批处理场景。在这里我们大多知道我们的输入和输出上下文长度重点是优化吞吐量。鉴于执行的离线/批处理性质延迟在这里不相关。为了实现高吞吐量确定你的LLM是否适合一个GPU如果不适合应用管道/张量并行来优化所需的GPU数量。然后只需将批处理大小尽可能增大。对于流式场景我们需要考虑吞吐量与延迟之间的权衡。要理解延迟让我们看一下典型LLM请求的处理阶段预填充和解码如图3所示。图3大型语言模型处理阶段预填充与解码图片由作者提供预填充是按下回车键与屏幕上出现第一个输出token之间的延迟。解码发生在响应中其他单词生成时。在大多数请求中预填充不到端到端延迟的20%而解码超过80%。鉴于此大多数LLM实现倾向于在生成token后立即将token发送回客户端——以减少延迟。总之在流式模式下我们主要关心第一个token的时间因为这是客户端等待第一个token的时间。之后以下token生成得更快而且生成速度通常比人类平均阅读速度更快。请注意对于RAG管道即使第一个token延迟也可能非常高。RAG通常以将文档块添加到输入提示的结果为目标 Targeting full context window。在顺序模型中我们必须等待最终结果因此我们关心端到-end延迟。这是生成响应输出序列中所有token的时间。最后关于延迟与吞吐量之间的权衡增加批处理大小同时通过LLM运行多个请求往往会使延迟变差但吞吐量更好。当然升级底层硬件/GPU可以同时改善吞吐量和延迟。请参阅Nvidia关于大型语言模型推理规模确定的教程以获取关于此主题的详细讨论。4.2 智能体AI推理规模确定在本节中我们强调将LLM推断扩展到智能体AI推理的关键步骤——如图4所示图4智能体AI推理维度图片由作者提供延迟Token延迟映射到智能体处理延迟。首个token与端到端token延迟的讨论在这种情况下映射到完整编排/分解计划的第一个智能体与端到端执行延迟。因此我们需要平衡智能体执行输出在完成执行后立即流式传输的要求与在完整编排执行终止后输出结果之间的需求。有关详细讨论请参阅我之前的文章关于AI智能体的状态表示实现智能体编排的实时和批处理可观测性。上下文窗口大小一个智能体的输出成为多智能体编排中要执行的下一个智能体的输入。因此很有可能前置智能体输出的至少部分连同整体执行状态/上下文理解存储在记忆管理层将成为传递给后续智能体的输入上下文的一部分——这需要作为智能体上下文窗口大小需求的一部分来考虑。4.3 智能体背景下的LLM调用类型至此我们已经建立对影响智能体背景下LLM调用成本因素的理解。这需要乘以智能体执行生命周期中LLM被调用的次数——如图5所示。图5智能体生命周期中的LLM调用图片由作者提供因此理解智能体执行生命周期中LLM可能被调用的不同场景非常重要。虽然大部分重点是基于推理的LLM调用来生成执行计划给定目标并执行相应智能体的功能但我们表明对于非功能性方面例如记忆管理、评估和护栏需要进行相等或更多数量的LLM调用。功能性LLM调用给定用户任务我们提示LLM进行任务分解——请参阅图2所示的智能体平台架构。不幸的是这也意味着当今的智能体AI系统受到LLM推理能力的限制。例如GPT4对以下提示的任务分解生成一封定制的电子邮件活动以在一个月内实现100万美元的销售额适用产品及其性能指标可在[url]获取。连接到CRM系统[集成]获取客户姓名、电子邮件地址和人口统计详细信息。详见图6分析产品——识别目标受众——创建定制电子邮件活动。图6推理和反思/适应阶段中的LLM调用图片由作者提供然后LLM监控执行/环境并根据需要自主适应。在这种情况下智能体意识到它无法实现其销售目标并自主添加了任务寻找替代产品——利用客户数据个性化电子邮件——执行A/B测试。非功能性LLM调用——记忆管理在这里我们简要扩展记忆路由功能以突出智能体记忆管理中涉及的LLM调用——如图7所示绿色框。有关该主题的详细讨论请参阅我之前关于AI智能体长期记忆的文章。图7智能体记忆管理中的LLM调用图片由作者提供记忆路由默认情况下总是路由到长期记忆LTM模块以查看是否存在响应给定用户提示的现有模式。如果有它会检索并立即响应根据需要进行个性化。如果LTM失败记忆路由会将其路由到短期记忆STM模块然后使用其检索过程函数调用、API等将相关上下文获取到STM工作记忆——利用适用的数据服务。STM——LTM转换器模块使用LLM调用实现始终处于活跃状态不断获取检索到的上下文并从中提取配方例如请参阅AutoGen中可教学智能体和配方的概念并存储在语义层通过向量数据库实现。同时它还在收集其他相关属性例如执行的token数、响应成本、系统状态、执行的任务/生成的响应并创建一个episode然后存储在知识图谱中底层过程存储在有限状态机FSM中。非功能性LLM调用——评估层定义全面的智能体评估策略是一个多方面的问题需要设计涵盖功能和非功能指标的用例特定验证测试如图8所示同时考虑到底层LLM推理模型解决方案架构RAG、微调、智能体/工具编排模式等适用的企业政策和AI法规/负责任AI指南。图8智能体AI评估策略图片由作者提供当今主要存在三种评估方法论通用基准和数据集LLM作为评判者人工评估LLM作为评判者方法使用评估LLM另一个预训练LLM来评估目标LLM响应的质量使用LangChain的CriteriaEvalChain等方法对它们进行评分。不幸的是用例特定的限制在这种情况下仍然存在。它具有加速LLM评估过程的优势尽管在大多数情况下由于使用第二个LLM而成本更高。非功能性LLM调用——智能体护栏随着越来越多的智能体AI系统部署到生产中我们看到对其风险的关注日益增加。我没有创建新列表而是尝试整合以下两个参考文献中识别的风险有关该主题的详细讨论请参阅我之前关于AI智能体护栏的文章1. OWASP白皮书智能体AI——威胁与缓解2025。2. IBM白皮书: 智能体AI中的问责与风险管理2025。R1-R15指[1]中识别的风险。括号中的指[2]中识别的相应风险。R16角色驱动的偏见很有意思在[2]中被识别但在[1]中缺失。R1对齐与欺骗行为动态欺骗R2意图破坏与目标操纵目标错位R3工具滥用工具/API滥用R4记忆中毒智能体持久性R5级联幻觉攻击级联系统攻击安全漏洞R6权限妥协R7身份欺骗与冒充R8意外RCE与代码攻击运营弹性R9资源过载R10否认与不可追踪性多智能体共谋R11多智能体系统中的恶意智能体R12智能体通信中毒R13对多智能体系统的人类攻击人类监督R14人类操纵R15让人在环中应接不暇R16角色驱动的偏见从风险管理角度来看有趣的是它们的缓解往往留给一个集中的护栏层。然而这是不现实的护栏需要特定于底层用例并在其各自的平台组件/层中实现——这直接影响整体解决方案架构。智能体AI组件风险架构映射如图9所示。可以想象每个护栏实现映射到一个或多个LLM/SLM调用。图9智能体AI护栏映射到平台架构图片由作者提供5. 结论虽然智能体AI系统的好处显而易见但它们也是难以以可靠和成本高效的方式执行的复杂系统。为此我们概述了影响智能体AI系统实现财务运维卓越的关键成本维度。我们首先识别智能体平台中的关键架构组件将它们映射到首先分析基础设施成本——然后深入研究LLM调用成本。我们强调用于非功能性方面的LLM调用例如记忆、评估、护栏等实际上可能超过智能体功能/推理调用——因此需要作为成本计算的一等公民来考虑。我们相信这两个方面对于将智能体AI解决方案投入生产都至关重要而且这项工作将有助于推动它们的企业采用。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻