预训练 vs 后训练:用“培养一个员工“讲清大模型是怎么炼成的

发布时间:2026/6/9 9:02:16

预训练 vs 后训练:用“培养一个员工“讲清大模型是怎么炼成的 你一定听过 GPT、Claude、DeepSeek 这些大模型,也大概知道它们训练出来很烧钱。但具体训练分几步、每步在干嘛?这篇用一个贯穿全文的比喻——培养一个员工——把它彻底讲清楚。一、一句话先抓住主线一个大模型从零到可用,核心就两大阶段:预训练(Pre-training) 通识教育,决定模型知道多少(能力上限)。后训练(Post-training) 岗前培训,决定模型好不好用(能力的释放方式)。打个比方:预训练造出一个博览群书的天才,但他性格古怪、答非所问;后训练把他训练成一个懂礼貌、会沟通、靠谱的助理。前者烧的是算力,后者拼的是数据质量与对齐技巧。下面分别展开。二、预训练:让模型读完半个互联网它在做什么?把海量文本——整个互联网、书籍、论文、代码——一股脑喂给模型,任务只有一个:预测下一个词。比如看到今天天气很,去猜下一个字是好;看到床前明月,去猜是光。就这么简单粗暴。但当模型在几万亿个词上反复做这个完形填空时,神奇的事情发生了:为了猜得更准,它不得不把语言规律、世界常识、逻辑关系、甚至代码语法,全部压缩进自己的参数里。产出的是什么?一个叫基座模型(Base Model)的东西。它的特点是:知识渊博:天文地理、编程数学,什么都懂一点。但不听话:你问它中国的首都是哪?“,它可能不直接回答,而是接着你的话往下续写”——“中国的首都是哪?这是一道小学地理题,下一题是……”因为它学的本领就是接话,不是答题。为什么贵?预训练消耗了整个流程绝大部分的算力和成本,动辄上万张 GPU 跑几个月,花费数千万美元。这也是为什么世界上能从头训练顶级基座模型的公司屈指可数。三、后训练:把书呆子调教成好助理基座模型有知识,但不会好好说话。后训练就是在它之上,用少量高质量数据做精修,让它变得有用、安全、听话。主要分两步走。第一步:SFT(监督微调)SFT 全称 Supervised Fine-Tuning。做法是喂给模型大量问题 → 优质答案的示范对,手把手教它:被提问时,你应该回答,而不是续写。举例,给它看成千上万条这样的样本:问:用一句话解释什么是黑洞? 答:黑洞是一种引力极强的天体,连光都无法从中逃逸。学完之后,模型终于明白了对话这件事——你问,它答。这一步把接话机器变成了问答助手。第二步:RLHF(基于人类反馈的强化学习)光会回答还不够,我们还希望它答得更好:更准确、更礼貌、会拒绝有害请求。RLHF 的思路很巧妙:让模型对同一个问题生成多个不同回答。让人类(或一个专门训练的奖励模型)给这些回答打分排序。通过强化学习,让模型逐渐向人类更喜欢的回答靠拢。这一步也叫对齐(Alignment)——让 AI 的输出对齐人类的价值观和偏好。你感受到的大模型情商高、懂分寸,主要就来自这里。补充:近两年还出现了DPO等更简洁的对齐方法,跳过了显式训练奖励模型的步骤,但目标和 RLHF 一致——让模型输出更符合人类偏好。四、一张表对比两个阶段维度预训练 Pre-training后训练 Post-training类比通识教育岗前培训目标学知识(能力上限)学规矩(好不好用)任务预测下一个词学会问答 对齐偏好数据海量、低精度(全网文本)少量、高质量(人工标注)成本瓶颈算力(烧 GPU)数据质量与对齐技巧产出基座模型(博学但不听话)对话模型(好用的助理)五、为什么这个分工很聪明?把学知识和学规矩拆开,带来两个巨大好处:复用。昂贵的预训练只做一次,得到的基座模型可以反复用于各种后训练,衍生出客服、编程、医疗等不同方向的助手。可控。模型的价值观和行为方式集中在后训练这一相对廉价、可迭代的阶段调整,出了问题不必从头再来。六、结语回到那个比喻:预训练把一个人送进图书馆读了所有的书,让他无所不知却不谙世事;后训练给他做岗前培训,教他怎么沟通、怎么做事、怎么守底线,最终变成一个你愿意托付工作的靠谱助理。下次再看到某某大模型发布,你就能拆解它了:它的知识深度来自预训练,它的对话体验来自后训练。觉得有用的话,欢迎点赞收藏。下一篇我们可以聊聊:为什么微调一个大模型可以做到很便宜?(关键词:LoRA)

相关新闻