大模型赋能Agent:小白也能掌握的AI新技能,速收藏!

发布时间:2026/6/25 23:18:09

大模型赋能Agent:小白也能掌握的AI新技能,速收藏! 本文介绍了Agent的概念及其在大模型背景下的新发展。Agent作为一种能自主感知环境、做出决策并采取行动的系统是人工智能研究的重要方向。大模型的加入为Agent提供了强大的“大脑”使其能更灵活地解决问题。文章详细阐述了LLM Agent的构成包括规划、记忆和工具等组件并通过实例说明了Agent的工作流程。对于想要了解AI前沿技术的小白和程序员来说本文提供了实用的入门知识助力掌握这一新兴技能。一、前提聊天机器人的能力也仅限于陪你聊天如此强大的大模型如果只能起到聊天的作用显然是无法满足人们对 AI 能力的想象。所以有人就开始思考如何将大模型的能力与真实工作结合起来于是Agent 开始在行业里流行起来。二、Agent我们这里讨论的 Agent 概念最初来自于人工智能领域人们往往叫它智能代理Intelligent Agent所以许多人把 Agent 翻译成了智能体。Agent 到底是什么呢下面这张图来自《人工智能现代方法》一书它可以帮我们理解 Agent 的概念。在这张图里智能体通过传感器从外界感知环境并将接收到的信息交给中央的“大脑”处理然后“大脑”做出决策让执行器执行相应的动作对环境产生影响。根据书里的定义任何通过传感器sensor感知环境environment并通过执行器actuator作用于该环境的事物都可以视为智能体agent。按照这个理解人是一种智能体眼睛、耳朵等器官是我们的传感器手、腿等器官是我们的执行器机器人是一种智能体摄像头、红外线测距仪是传感器各种电机是执行器。说到这你可能也想到了我们开发的软件系统也可以看作一种智能体我们接受外部的请求就是在感知环境回复的应答就是在对环境执行动作。这样一来Agent 是不是也不像之前以为的那样高高在上了。如果我们开发的软件系统也算是智能体的话那我们今天在谈论的 Agent 到底和它有什么区别呢答案就是“大脑”。传统的软件系统中所有处理规则都是我们硬编码在其中的是固定不变的而在人工智能领域这个“大脑”是具备灵活性的它可以自行推断出下一步该做什么。我们今天讨论的Agent 是一种能够自主感知周围环境、做出决策、采取行动达成特定目标的系统。“自主”是 Agent 与传统软件系统之间的差异。在《人工智能现代方法》一书中除了智能体还有一个理性智能体Rational Agent的概念对于每个可能的感知序列给定感知序列提供的证据和智能体所拥有的任何先验知识理性智能体应该选择一个期望最大化其度量性能的动作。我们不必特别纠结于这个概念的细节只要把理性智能体理解成脑子更好的智能体即可。之所以要提一下理性智能体是因为在书中作者把人工智能的研究领域定义为理性智能体的研究与设计The study and design of rational agents。现在你应该明白了 Agent 这个概念在人工智能领域具有非常重要的意义。当然我们要讨论的基于大模型实现的 Agent 可以说介于《人工智能现代方法》定义的智能体和理性智能体之间比智能体多一些智能却还达不到理性智能体构想得那般强大。Agent 虽然在人工智能领域已经存在了很长的时间但终究只在这个领域内部讨论一个重要的原因就是 Agent 缺少一个好“大脑”。三、LLM Agent虽然很多人都在把大模型当作一个更好的聊天机器人在用但实际上大模型还有一个很强的能力就是推理能力。所以有人开始把大模型视为一个强大的通用问题解决器general problem solver。大模型的爆红让很多人突然意识到也许 Agent 需要的好“大脑”终于出现了。于是一大批人开始尝试以大模型为基础开发新一代的 Agent这其中最典型就是 AutoGPT。AutoGPT 刚刚出来的时候惊艳到了很多人。只需要一个简单提示词AutoGPT 就能开始自己分析任务、拆解任务乃至执行任务。这远远超出普通人对大模型边界的认知殊不知如此表现的 Agent 同样也是人工智能研究领域翘首期盼的一个好用的新脑。随着 AutoGPT 的流行各种以大模型为新脑的 Agent 纷纷问世AI 领域曾经无法很好实现的 Agent 终于可以落地了。大模型虽然很好但它并不是一个完整的 Agent。所以要想让 Agent 真正落地我们还需要补充一些组件下面是一个常见的 Agent 系统概览图这里面包含了一些重要的组件规划Planning它负责将大目标分解成小的子目标也可以对已有行为进行反思和自我改善。记忆Memory包括短期记忆和长期记忆短期记忆提供上下文内的学习长期记忆则提供长时间保留和回忆信息的能力。工具Tools通过调用外部 API 获取外部信息作为感知器执行外部动作作为执行器。从这些组件的简介我们不难看出规划组件的能力是需要智能完成的这个部分要归属于大脑在实现中我们可以让大模型来做这部分工作。在记忆组件中短期记忆可以用聊天历史的方式解决而长期记忆我们可以存放到向量数据库中采用类似 RAG 的方式解决。工具组件主要是与不同的内容集成这个部分是程序员最熟悉的部分属于常规的编码。我们再结合一个具体应用来看一下蚂蚁集团发布的支小宝就是一个 Agent可以帮我们完成一个花钱的动作它就需要规划、记忆和工具三个能力。比如你让它点外卖它需要思考你今天想吃什么这是规划随着你使用次数的增多它就越来越了解你的偏好这是记忆而最后的外卖下单需要调用专门的外卖应用这就是工具了。为了帮助你更好地理解我们用一个处理流程来看一下 Agent 是如何工作的。Agent 的处理流程通常会分成两步规划和执行。当 Agent 接收到用户请求时它会让规划组件将大任务分解成更小的子任务剩下的就是逐步执行这些子任务。进行任务分解关键就是使用提示词。为了能更好地完成任务我们可以采用提示工程的技术比如思维链。具体采用哪种提示词需要结合自己应用的特点进行选择。经过这个过程一个大任务就会变成很多的子任务。有了分解出来的子任务我们就可以执行了。不过通常情况下我们还会做一些评估比如判断任务的有效性是否需要继续执行等等。这种任务也可以交给大模型用到的也是提示工程比如ReAct。我们讲过ReAct 会通过思考Thought、行动Action、观察Observation三个阶段进行任务处理。通常我们会循环这个过程直到通过观察判断需要结束。执行一个具体的任务往往是我们问大模型要做什么然后由大模型结合上下文信息做出判断指定一个具体要做的事情。在这个过程中我们要告诉大模型我们能做什么常规的做法就是把工具组件的能力在提示词中描述出来比如我们告诉大模型说它能够查询某个地区的天气。此外提示词里包含的上下文则是来自记忆组件可能包括作为短期记忆的聊天历史以及从长期记忆中搜索得到的相关信息。当我们把完整的提示词发给大模型大模型会告诉我们该做什么。比如它告诉我们该查询天气并告诉我们具体的参数是什么。这时大模型已经完成了思考过程这就轮到我们行动了。我们会调用工具组件的查询天气功能得到一个结果。接下来我们会把得到的结果再发给大模型进入下一个执行循环。如此往复直到大模型判断说应该停下来。通过这个介绍你可以看到 Agent 的执行过程本质上是一个循环一直会执行到大模型认为应该结束为止。所以一旦控制不好Agent 执行过程成本是非常高的。从实践的角度有时我们会控制一下循环的次数。虽然我们介绍的 Agent 包含了完整的组成部分但在实际的开发过程我们可能并不需要所有的组件。比如一个辅助孩子解决奥数问题的 Agent可能就不需要使用工具因为它需要的只是一些推理过程。再比如一个辅助写作的 Agent流程可能是固定的搜集资料、列出大纲、写作、打磨它就不需要一个规划的过程只要一个步骤一个步骤地执行。前面说到了人工智能领域对 Agent 的探索实际上人们在这个方向走出了很远比如多个任务的并行执行、分布式 Agent、多智能体协调等等。如果你想在这个方向走得更远里面还是有很多东西可以去研究的毕竟人工智能研究的内容就是理性智能体。至此我们就对 Agent 有了一个初步的了解。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻