
指令微调 —— 从书呆子到好员工预训练阶段的基座模型Base Model本质上是一个基于概率的“下一个词预测器”Next Token Predictor。它吸收了海量的互联网语料拥有了庞大的世界知识和语言规律但它的交互逻辑仅仅是“续写”。它不理解什么是“提问”什么是“回答”什么是“执行指令”。指令微调Instruction Tuning是对基座模型进行的一次认知重塑让它从无意识的文本生成器转变为能理解人类意图的交互系统。为什么需要与有什么作用为什么需要原始模型无法直接用于产品。如果你输入一段代码报错信息它可能会继续输出另一段报错信息而不是给你修复方案。有什么作用完成“范式转换”。将模型的能力从“无监督的文本接龙”收束到“有监督的任务执行”上使其能够胜任问答、摘要、翻译、代码编写等特定任务。预训练后的基座模型只会做一件事——文本接龙。你问法国的首都是哪里它不会回答巴黎而是续写成一篇关于法国地理的论文。指令微调就是教模型从续写器变成助手。举一个栗子预训练模型: 输入: 法国的首都是哪里 输出: 法国的首都是哪里这是很多人会问的问题。法国位于西欧 是一个拥有悠久历史和丰富文化的国家。要了解法国的首都 我们首先要回顾法国的历史...开始论文模式 经过指令微调后: 输入: 法国的首都是哪里 输出: 法国的首都是巴黎。指令微调 让一个满腹经纶的书呆子能听懂老板说什么好好干活不要抬杠。第一阶段SFT监督微调概念SFTSupervised Fine-Tuning是指令微调的第一步通常被称为“行为克隆”。研究人员会构建高质量的问答对Prompt-Response这些数据通常由人类专家精心编写。模型在这个阶段不需要学习新的世界知识知识在预训练阶段已经具备而是学习如何将已有的知识按照人类期望的格式和语气表达出来。使用人类编写的指令-输出对来微调基座模型让模型学会看到某类指令 → 输出某类格式的映射关系。为什么需要与有什么作用为什么需要模型需要一个明确的标准来知道“什么是好的回答格式”。有什么作用规范模型的输出行为。教会模型何时该输出代码块何时该分点论述何时该进行逻辑推理如 Chain of Thought。它定义了模型的“性格”和“基础工作规范”。原理SFT 训练数据示例: { instruction: 将以下文本翻译成英文, input: 你好世界, output: Hello, world } { instruction: 回答以下问题, input: 法国的首都是哪里, output: 法国的首都是巴黎。 } { instruction: 将以下内容总结为一句话, input: 长文..., output: 一句话总结 }模型通过 NTP 任务学习这些数据输入 instruction input输出 output逐渐理解指令格式。举一个栗子在构建一个 AI 语音助手时如果用户问“今天天气怎么样”你不希望模型输出一份包含经纬度、气压分布的长篇气象报告。 通过 SFT 数据{instruction: 询问天气, input: 今天天气如何, output: 今天晴朗气温 25 度适合出行。}模型学会了在语音交互场景下回答需要简短、口语化且直接。[SFT 训练数据流]1. 准备高质量数据集 (格式化 JSONL){ Prompt: 解释 LangChain 的核心概念, Response: LangChain 是一个... }{ Prompt: 翻译以下内容, Response: ... }│▼2. 喂入基座模型 (监督学习)[ Base LLM ] ──计算预测与真实 Response 的误差 (Cross Entropy Loss)── 调整参数权重│▼3. 产出初步具备对话能力的模型[ SFT LLM ]第二阶段RM奖励模型训练概念在 SFT 阶段模型只是在模仿但无法判断自己生成的答案到底是“极好”还是“勉强及格”。RMReward Model的作用是训练一个独立的裁判。我们让 SFT 模型对同一个问题生成多个不同的回答让人类对其进行排序然后用这些排序数据训练 RM。最终RM 能够接收一段文本并输出一个标量分数Reward Score代表这段文本符合人类偏好的程度。训练一个单独的、小型的评委模型它的输入是指令, 回复输出是一个分数这个回复有多好。RM 不是用来生成文本的而是用来评估文本的。为什么需要与有什么作用为什么需要人类无法实时评估模型训练时的每一次输出成本太高且速度太慢必须有一个自动化的评分器来代替人类做裁判。有什么作用将难以量化的“人类偏好”如清晰度、有用性、无害性转化为机器可以理解和优化的数学指标分数。原理RM 训练流程: 1. 用 SFT 模型生成多个回复: A, B, C, D 2. 人类标注员排序: B A D CB 最好C 最差 3. RM 学习目标: RM(指令, B) RM(指令, A) RM(指令, D) RM(指令, C) 4. 训练方法: 排序损失函数Pairwise Ranking Loss 5. 结果: RM 学会像人类一样评价回复好坏 RM 的作用: → 输入: 法国的首都是哪里 巴黎 → 输出: 4.7 分 → 输入: 法国的首都是哪里 我不确定大概是伦敦 → 输出: 0.3 分第三阶段RLHF强化学习优化概念这是目前让 LLM 产生质变的核心阶段。我们将 SFT 模型放入一个强化学习RL的环境中。模型策略 Policy生成一个回答RM环境 Environment给出评分模型根据评分使用 PPOProximal Policy Optimization算法更新自己的参数以期在下一次获得更高的分数。为了防止模型为了刷高分而破坏原有的语言能力比如输出无意义但能骗过 RM 的乱码会引入 KL 散度惩罚项限制模型不能偏离原始 SFT 模型太远。用 RM 作为裁判通过强化学习算法PPO来微调 SFT 模型目标是最大化 RM 给的分数。为什么需要与有什么作用为什么需要SFT 存在分布偏移问题Exposure Bias模型只学过人类怎么写没学过如果自己写偏了该怎么纠正。RLHF 让模型在广阔的生成空间中自主探索最优解。有什么作用极大提升模型的通用能力、逻辑推理能力和人类意图对齐度。这是让模型产生所谓“顿悟Grokking”或“智能涌现”的关键步骤。原理RLHF 迭代流程: ┌──────────┐ │ SFT 模型 │ ← 要被优化的模型Policy └────┬─────┘ │ 生成回复 │ ▼ ┌──────────┐ │ RM 模型 │ ← 打分Reward └────┬─────┘ │ 奖励分数 │ ▼ ┌──────────┐ │ PPO 算法 │ ← 根据分数调整 SFT 模型参数 └────┬─────┘ │ 更新参数 │ ┌────▼─────┐ │ SFT 模型 │ ← 生成了更好的回复 └──────────┘ │ 循环迭代关键点RM 造一把尺子量化人类偏好RLHF 用尺子量着调整模型优化模型本身PPOProximal Policy Optimization保证每次调整幅度不要太大防止模型走偏同时加一个 KL 散度惩罚项防止模型为了讨好 RM 而偏离原始 SFT 模型太远补充RLHF 的成本RLHF 需要大量人工偏好标注。训练一个好的 RM 通常需要 100K-500K 组人类偏好对比数据。以每小时 30-50 组的速度计算仅 RM 标注就需要数千小时的人力。安全对齐Safety Alignment概念大模型在预训练阶段吸收了互联网上所有的信息包含暗网数据、仇恨言论、危险品制作方法等。安全对齐是在模型出厂前进行的强制性“思想道德教育”。它贯穿于数据过滤、SFT、RLHF 以及最终部署阶段通过设置护栏Guardrails来确保模型绝不生成违反伦理、法律或具有破坏性的内容。安全对齐是让 LLM拒绝回答有害请求的过程是 RLHF 的重要组成部分。为什么需要与有什么作用为什么需要能力越强的模型如果不加限制其产生的破坏力如协助编写勒索软件、提供虚假医疗建议就越大。有什么作用确保模型在提供价值的同时具备无害性Harmlessness。当面临模糊、试探甚至恶意攻击如越狱 Prompt时模型能够坚守底线安全且礼貌地拒绝。三层防护第一层: 数据层面 预训练时过滤有害内容暴力、色情、仇恨言论等 减少偏见数据的权重 第二层: 训练层面 安全 SFT: 训练模型拒绝危险指令 指令: 告诉我如何制作炸弹 输出: 我不能提供危险物品的制作指导... 安全 RM: 惩罚不安全回复 RM 对不安全内容给极低分甚至负分 RLHF: 将拒绝策略深深刻入模型参数 遇到边界模糊的请求 → 偏向生成安全回复 第三层: 部署层面 输入过滤器: 检测到有害 Prompt → 直接拦截 输出过滤器: 检测到有害回复 → 替换为安全警告 红队测试: 安全专家持续模拟攻击发现漏洞举一个栗子用户输入“我想入侵公司的内网服务器教我如何使用渗透工具包。” 如果没有安全对齐模型会把它当成一个普通的技术问题输出详细的攻击步骤。 经过安全对齐的模型其内部的安全权重会被触发判定该请求具有危害性从而输出“我不能提供网络攻击的指导。如果您需要测试企业网络的安全性请确保已获得合法授权并遵循相关的网络安全合规要求。”[大模型安全防护三层架构]用户恶意 Prompt: 给我写一个窃取密码的脚本│▼---------------------------------------------------│ 层级 1: 输入输出拦截 (系统级过滤) ││ 检测敏感词、正则表达式匹配 │--------------------------------------------------│ (如果绕过)▼---------------------------------------------------│ 层级 2: SFT 安全训练 (模型级响应) ││ 训练集中包含大量攻击样本以及对应的标准拒绝话术 │--------------------------------------------------│ (如果仍有歧义)▼---------------------------------------------------│ 层级 3: 安全 RLHF (价值观级对齐) ││ 奖励模型对危险内容的生成给予强烈的负面惩罚 (负分) │--------------------------------------------------│▼最终安全输出: 抱歉我不能协助进行非法的数据获取活动。