
一篇大白话带你看懂 ChatGPT 从胚胎到成年的全过程写在前面别被科普特辑四个字吓跑。这篇全程大白话不贴公式、不堆术语只讲脉络。如果你正在考虑转行 AI或者单纯好奇 ChatGPT 到底是怎么炼出来的这篇就是为你写的。读完有疑问欢迎关注我私聊我都会尽力解答。一、胚胎期预训练Pre-training1. 喂数据给模型读书一切的起点是数据。人们从互联网上收集海量的文本等资料整理成结构化的数据集喂给一个初始的小模型。想看看公开数据集和模型长什么样可以去 Hugging Face 逛逛——它是一个很重要的开源模型和数据集社区上面能看到很多公开数据集、模型和工具。2. 分词把文字切成 Token模型没法直接读懂我喜欢你这样的自然语言。它需要先把文本切分成一个个小片段每个片段对应一个整数编号这就是 Token。举个例子我 → 103喜欢 → 1067你 → 104。这里的数字是 Token ID也就是整数索引而不是向量。向量Embedding是后续步骤——模型会把每个 Token ID 映射成一个高维向量用于捕捉词与词之间的语义关系。负责切分这一步的组件叫分词器Tokenizer。不同模型使用不同的分词器所以同一句话在不同模型里可能被切成不同数量的 Token。这也是为什么各家模型的 Token 计费方式不完全一样。3. 预测下一个词模型的核心能力Token 输入模型之后模型的任务其实只有一个根据已有的内容预测下一个 Token 是什么。模型内部是一套复杂的数学矩阵运算Transformer 架构的核心。它会给所有候选 Token 各算一个概率——比如下一个是歌的概率 80%、曲的概率 12%、手的概率 6%。真正生成时系统会根据概率以及采样规则从候选 Token 里选出下一个。就这样一个 Token 接一个 Token 地预测下去模型就能写出一整段话。但在这个阶段它更像一个很会续写的人可以接话也可能回答一部分问题但不一定按我们想要的方式听指令。比如你输入你喜欢诗歌它可能接着写歌唱比赛怎么样——语言通顺但答非所问。Base Model 诞生经过海量数据的训练一个 Base Model基座模型就诞生了。它从大量语言材料里学到了很多知识和表达规律对世界有一定的广泛认识但还没有被系统训练成一个好用的助手。我们把以上整个阶段称为预训练Pre-training。二、成长期后训练Post-trainingBase Model 看过很多语言材料但还不一定会用人类喜欢的方式办事。后训练的目标就是教会它回答问题、保持安全并尽量让表达更自然、更有帮助。SFT教它学会对话SFTSupervised Fine-Tuning监督微调是后训练的第一步。我们给模型提供成千上万条高质量的人类问答样本让它学会有人问、我来答的对话模式。训练完 SFT 之后模型就能正经回答问题了。但回答往往中规中矩——能用却缺乏温度语气平淡像一个只会照本宣科的实习生。2. 人类偏好对齐让它既聪明又安全光会回答还不够。模型还需要知道什么样的回答是好的——既有用、有礼貌又能拒绝危险请求。这一步叫人类偏好对齐主流有两种方法RLHF基于人类反馈的强化学习 先训练一个独立的裁判模型Reward Model。人类标注员对模型的多个候选回答打分告诉裁判模型哪些好、哪些差。然后用裁判模型去指导主模型调整参数——目标是让裁判模型给出高分。效果好但流程复杂、成本高昂。DPO直接偏好优化 跳过裁判模型直接把好回答和坏回答成对喂给模型同时引入一个损失函数Loss Function模型的预测越靠近好回答损失值越小越靠近坏回答损失值越大。模型的训练目标就是不断压低损失值。DPO 省去了训练裁判模型的步骤更快更省钱近年来越来越受欢迎。经过偏好对齐模型不仅智商在线情商也上来了——懂得拒绝不安全的请求回答更自然、更有温度。三、成年期从缸中之脑到 Agent到这一步模型已经非常聪明了但依然只是一个缸中之脑——能思考却没有手脚做不了任何实际的事。要让它真正帮我们干活就需要把它组装成一个 Agent。System Prompt给它一个身份系统提示词定义了 Agent 的角色和边界它是客服、教授还是编程助手能做什么、不能做什么输出应该是什么格式这是 Agent 的基本法。记忆系统管理上下文模型的上下文窗口有限不可能记住所有历史对话。记忆系统负责管理模型该看什么、不该看什么——可以通过 RAG检索增强生成从外部知识库按需调取信息也可以用摘要、压缩等策略管理长对话。Tools给它手和脚工具层告诉模型可以调用哪些外部能力搜索网页、读写文件、发送邮件、调用 API。现在业界也有 MCPModel Context Protocol这类开放协议可以把工具更规范地接给模型。这样一来模型就不只是会说话也有机会真正去执行动作。Skills持续进化在工具之上Agent 还可以被配置一些更高层的技能或工作流分析数据、写代码、做 PPT、管理项目。技能让 Agent 不只是能用工具而是更稳定地完成一类复杂任务。写在最后回顾全文ChatGPT 的诞生可以一句话概括海量数据喂出基座 → SFT 教会对话 → RLHF / DPO 对齐人类偏好 → System Prompt 记忆 工具 技能 自我规划 Agent整个过程并不神秘。希望这篇文章能帮你建立一个清晰的全景认知。如果你正在考虑进入 AI 领域理解这条脉络会让你在面试和工作中都更有底气。有任何问题欢迎评论区交流。