简单学习 --> llm是怎么训练出来的?

发布时间:2026/5/27 20:13:23

简单学习 --> llm是怎么训练出来的? 进入预训练前的步骤 —— 分词Tokenization概念模型看不懂人类的“字符串”它只能处理数字。在 6.1 预训练开始前必须先通过分词器Tokenizer将文本切分成 Token 并映射为 ID。Token 是 LLM 处理信息的最小单位。简单示例一个英文单词可能是一个 Token也可能被切成多个一个汉字通常是一个或多个 Token。输入:LLM是人工智能Token 切分:[LL, M, 是, 人工, 智能]ID 映射:[452, 89, 1024, 5566, 8899]原理图解------------------- ----------------- ------------------- | 原始文本 (Text) | --- | 分词器 (Tokenizer)| --- | 向量化 (Embedding)| | 太阳从东方升起 | | 查表映射为数字ID | | 映射为高维稠密向量| ------------------- ----------------- ------------------- [56, 102, 988...] [0.23, -1.2, 0.8...] ↓ 进入 Transformer\预训练Pre-training—— 自监督学习预训练是大规模无标注文本语料库上利用自监督学习对深度神经网络参数进行初始化训练的过程。其本质是让模型“通读群书积累常识”在万亿级 Token 的文本上执行预测下一个词Next Token Prediction, NTP的任务。这个阶段的标签自动来自文本本身不需要人工标注。简单理解这个阶段不教模型怎么回答问题只让它通过阅读全网资料把人类社会的语言规律、语法、世界知识“压缩”进它的数万亿个参数权重里。预训练是 LLM 训练的第一阶段。模型在海量文本万亿级 Token上执行一个简单的任务预测下一个词Next Token Prediction, NTP。这个阶段的标签自动来自文本本身不需要人工标注属于自监督学习。例子训练数据: 互联网上的海量文本网页、书籍、论文、代码... ​ 自监督学习过程: ​ 原始文本: 太阳从东方升起 ↓ 自动分割 输入: 太阳从东方升 → 标签: 起 标签就是文本本身的下一个词 ↓ 模型预测下一个词 → 对比标签 → 计算 Loss → 反向传播 → 更新参数为什么需要预训练一个未经训练的神经网络对语言一无所知。预训练就是让它从万亿字的文本中积累知识——就像婴儿通过听大人说话来学语言但不理解每个词的精确含义。作用通过万亿次预测下一个词模型自动学会语法结构主谓宾搭配、词性规则、时态变化语义关系猫和虎向量接近猫和冰箱向量远离世界知识华盛顿是美国第一任总统被编码为参数中的权重模式推理能力大规模下参数足够多时涌现出逻辑推理能力数学原理预训练目标数学形式: ​ 最大化: Σ log P(x_i | x_1, x_2, ..., x_{i-1}; θ) ​ 其中: x_i 第 i 个词 θ 模型所有参数权重 W P(x_i | ...) 给定前文预测 x_i 的概率 ​ 训练过程: 不断调整 θ让所有词的概率都尽量接近 1 → 模型逐渐学会在什么上下文说什么话重要认知知识不是存在参数里的LLM 不像数据库那样存储事实。知识被压缩成了参数中的高维语义表示。华盛顿是美国第一任总统不是作为一个字符串存在某个参数里而是作为神经网络权重的一种特殊分布模式使得当输入华盛顿是美国第时FFN 中某个特定模式被激活输出一的概率最高。补充Scaling Laws缩放法则DeepMind 的 Chinchilla 论文提出了一个重要规律最优训练配置: 每个参数约对应 20 个训练 Token ​ 例如: 70B 参数的模型至少需要 70B × 20 1.4 万亿 Token 的数据 如果数据不够不如用更小的模型 更多数据 ​ 很多模型实际上训练不足数据量不够 这是为什么 LLaMA 3 只有 8B 参数却表现优异 → 它用 15 万亿 Token 训练远超 8B × 20 1600 亿的标准配置NTP vs MLM概念这是两种不同的预训练范式NTP下文词预测即自回归语言模型。永远根据已知的前文去猜下一个字应该是什么。MLM掩码语言模型即完形填空。把句子中间挖掉一个词结合前后文的意思把这个词猜出来。NTPNext Token PredictionMLMMasked Language Modeling机制给定前缀预测下一个词随机遮住一些词从上下文猜测注意力方向单向只看前面双向看前后文训练出来的模型擅长生成GPT 系擅长理解BERT 系举例太阳从东方升__ → 起地球绕着[MASK]运转 → 太阳推理一致性训练和推理完全一致都是单向训练时能看答案推理时不能不一致注意力机制Attention Mask差异【GPT 系NTP 单向注意力 (Causal Mask)】 预测时当前词只能看到自己和它前面的词1 表示可见0 表示遮挡。严格防止信息泄露。 ​ 太 阳 从 东 方 太 [ 1 0 0 0 0 ] - 只能看到太 阳 [ 1 1 0 0 0 ] - 能看到太,阳 从 [ 1 1 1 0 0 ] - 能看到太,阳,从 东 [ 1 1 1 1 0 ] 方 [ 1 1 1 1 1 ] ​ ​ 【BERT 系MLM 双向注意力 (Bidirectional)】 预测时可以同时看到左右上下文。 ​ 太 阳 [MASK] 东 方 太 [ 1 1 1 1 1 ] 阳 [ 1 1 1 1 1 ] MASK [ 1 1 1 1 1 ] - MASK 能同时结合左侧(太阳)和右侧(东方) 东 [ 1 1 1 1 1 ] 方 [ 1 1 1 1 1 ]GPT 为什么不用 MLMGPT 的目标是生成。MLM 在训练时允许模型偷看被遮词的前后文双向但实际生成时不能偷看未来。如果训练用 MLM、推理用自回归两者存在严重的不一致模型会在生成时失灵。LLM 完整训练流程LLM 训练分三个阶段每个阶段的目标、数据、方法都不同╔══════════════════════════════════════════════╗ ║ 阶段 1: 预训练Pre-training ║ ║ ║ ║ 数据: 海量互联网文本万亿级 Token ║ ║ 任务: 预测下一个词NTP ║ ║ 监督: 自监督标签来自文本本身 ║ ║ 成本: 数千万数亿美元GPU 集群 ║ ║ 产出: 基座模型 —— 博学但不听话 ║ ║ 会接龙但不会回答问题 ║ ╚══════════════════╦═══════════════════════════╝ ▼ ╔══════════════════════════════════════════════╗ ║ 阶段 2: 监督微调SFT ║ ║ ║ ║ 数据: 人工编写的指令-输出对数万条 ║ ║ 任务: 学习将指令映射到正确输出 ║ ║ 监督: 有监督需要人工标注 ║ ║ 成本: 数十万数百万美元人工标注 ║ ║ 产出: 能听懂指令的模型 ║ ║ 你说翻译它就会翻译 ║ ║ 但回复质量参差不齐 ║ ╚══════════════════╦═══════════════════════════╝ ▼ ╔══════════════════════════════════════════════╗ ║ 阶段 3: RLHF基于人类反馈的强化学习 ║ ║ ║ ║ Step 3a: 训练奖励模型RM ║ ║ 人类标注员对多个回复排序A B C ║ ║ → 训练出一个能自动打分的 AI 评委 ║ ║ ║ ║ Step 3b: 用 RM 打分来优化 LLMPPO ║ ║ LLM 生成回复 → RM 打分 → 强化学习调参 ║ ║ → 反复迭代让 LLM 学会取悦评委 ║ ║ ║ ║ 产出: 有用、无害、诚实的 AI 助手 ║ ╚══════════════════════════════════════════════╝一句话解释预训练学知识 → SFT 学听指令 → RLHF 学做人现在主流方案从 RLHF 到 DPO目前开源界如 LLaMA 3已大量使用 DPO直接偏好优化取代传统的 RLHF。传统 RLHF:需要训练专门的“AI评委”奖励模型 RM再用 PPO 算法强化学习调参。流程极其复杂容易崩溃。现代 DPO:数学上的重大突破。不需要训练 AI 评委打分直接拿“好回答”和“坏回答”对大模型进行对对碰微调。用 SFT 的简单流程达到了 RLHF 的效果更稳定、省显存。补充概念对齐带来的副作用对齐税Alignment Tax模型在经过 SFT 和对齐学会“礼貌”和“安全”后往往会损失一部分预训练阶段学到的通用知识或创造力。灾难性遗忘Catastrophic Forgetting在微调阶段如果注入的新领域知识太多模型可能会覆盖掉预训练时的旧知识原本会做的题突然不会了。各阶段的标签从哪来标签Label就是“正确答案”或“学习的目标导向”。不同阶段的标签来源完全不同预训练阶段NTP —— 自监督标签标签:原始文本中的下一个词。来源:自动从文本中截取零人工成本。举例:床前明月光疑是[_____]标签 文本自带的下一个词地。SFT 阶段 —— 有监督标签标签:人工编写的理想回复黄金标准。来源:人类专家或高精度系统显式手动编写是主要的成本来源。举例:指令将你好翻译成英文标签Hello。对齐阶段RLHF/DPO —— 偏好标签标签:人类偏好排序没有绝对的对错只有相对的好坏。来源:标注员比较多个回复A 比 B 好。举例:模型生成 A、B 两个回复标注员只做排序A B不需要亲自写答案比 SFT 的标注速度更快。

相关新闻