
google gmini大语言模型 的数据训练 flan等方法 介绍下负责人专访https://www.bilibili.com/video/BV1JCLw61E2d/?spm_id_from333.1007.tianma.2-2-5.clickvd_source7d3841cb81fdca8b20a31fa9ee5ec8efGoogle Gemini FLAN方法全介绍FLANFine-tuned LAnguage Net指令微调框架是Google自研通用指令调优方法论是PaLM、Gemini后训练SFT阶段的核心技术基石Gemini是Google原生多模态大模型训练分为【多模态联合预训练 FLAN式指令微调 RLHF人类对齐】三阶段。一、FLAN完整原理、迭代版本、训练方法1. FLAN核心定义2021初代FLAN2022 FLAN-T5规模化2023 FLAN CollectionFLAN全称指令微调Instruction Tuning不在单一任务微调用上千种不同任务的自然语言指令统一微调基座大模型让基座原生具备零样本/少样本/思维链CoT能力不用推理时额外给示例颠覆传统单任务微调范式。旧模式推理时输入「3个样例新问题」Few-shot PromptFLAN模式微调阶段把海量样例塞进训练集推理直接指令问题出答案Zero-shot。2. FLAN三代演进初代FLAN(2021)基于T562个NLP数据集、12大类任务验证多任务指令微调提升零样本可行性。FLAN-T5(2022里程碑)1836个细分任务、473套数据集覆盖分类、翻译、问答、常识、推理首次大规模加入CoT思维链标注数据分出标准/CoT、零样本/少样本4类输入模板80M~11B全尺寸T5微调小参数量FLAN-T5-11B性能对标原生PaLM-62B。FLAN Collection(2023)完善任务均衡、提示混合策略成为Google全系列LLMPaLM→Gemini标配SFT流水线拆分通用任务集推理专项集多语言任务集。3. FLAN标准化训练数据构造四大输入模板统一Text-to-Text格式所有任务统一转为自然语言指令→答案配对4种格式混训训练格式输入结构输出结构适用场景标准零样本指令题干答案常规分类、摘要、翻译CoT零样本指令“逐步推理”题干推理过程答案数学、多跳逻辑标准少样本指令N组(问题-答案样例)新题干答案小众冷门任务CoT少样本指令样例(问题-推理-答案)新题干推理答案复杂推理Benchmark(MMLU/BBH)数据配比规则基础NLPMuffin(80任务)T0(193任务)多语言NIV2(1554任务)推理9类CoT专项数据集动态加权冷门任务提升采样权重避免热门任务数据淹没长尾任务。4. FLAN训练超参框架框架JAXT5XTPUv4集群微调算力仅为基座预训练0.2%左右轻量化低成本提升泛化优化器Adafactor、固定学习率样本打包Example Packing提升GPU/TPU利用率训练逻辑不冻结主干全参数微调每2k步在holdout测试集校验保留最优权重。5. FLAN核心收益零样本暴涨同基座T5FLAN微调后MMLU提升15~20个百分点少样本鲁棒少量提示即可完成陌生任务大幅降低Prompt工程成本兼容CoT原生学会分步推理数学/逻辑能力质变下游微调起点更优用FLAN权重做行业微调收敛更快、数据需求更低。二、Gemini全链路训练预训练FLAN指令微调RLHF对齐Gemini分三大家族Nano(端侧小参)、Pro(通用主力)、Ultra(超大旗舰)文本图像音频视频四模态联合预训练后训练完全沿用FLAN技术体系做SFT。1. 第一阶段多模态联合预训练自监督基座训练1预训练数据源构成全模态混合数据、分层清洗过滤文本海量合规网页、全语种图书、开源代码(GitHub全品类编程语言)、百科多语言覆盖上百种小语种SentencePiece统一分词图像带标注开源图册商业授权图像、图文配对数据继承PaLI/Flamingo多模态图文数据音视频LibriSpeech等开源语音、YouTube带字幕短视频音-文、帧-文对齐标注数据质控双筛机制规则过滤小模型分类器剔除重复、有害、测试集泄露数据领域加权通用数据打底、代码/数理数据后期提升权重强化专项能力。2训练硬件架构硬件Gemini1代TPUv4 SuperPod、Gemini2.5升级TPUv5p跨地域超算集群Pathways分布式调度框架单进程统筹万级TPU架构原生多模态Transformer无单独视觉编码器文本/图像/音频token统一嵌入进入主干TransformerUltra大模型局部采用MoE混合专家架构Nano通过大模型蒸馏得到基座。2. 第二阶段基于FLAN范式的有监督微调SFTGemini版FLAN核心后训练Gemini没有照搬FLAN-T5纯文本方案升级为【多模态FLAN】数据数十万条图文/音视频文本指令配对复用FLAN四类模板新增「看图答题、听音频总结、视频问答」多模态指令样本混入人类专家高质量对话、工具调用样例训练规则沿用FLAN任务均衡CoT混合训练数学/代码类强制掺入思维链标注多模态样本和纯文本样本按比例混训效果预训练基座只会补全文本经过多模态FLAN微调后实现自然语言提问→看图/听音输出答案也是Gemini对话能力来源。关键Gemini的SFT本质多模态扩展版FLAN是FLAN技术从NLP单文本落地多模态的产物。3. 第三阶段RM奖励模型 RLHF人类偏好对齐FLAN之后收尾奖励模型RM训练同一条指令人工标注多条模型输出优劣排序训练打分模型PPO强化学习RLHF以FLAN微调后的模型为初始权重用RM打分做奖励迭代修正输出风格、安全性、事实性分层优化面向C端Gemini Advanced侧重对话流畅面向API的Gemini优化指令遵循与输出规范性。三、FLAN在Gemini落地的差异化改动模态拓展原版FLAN只有文本Gemini-FLAN支持图像/音频/视频输入指令数据扩容新增代码、工具调用、长文档、多轮对话四大类指令数据集CoT升级除文本推理加入视觉推理CoT看图分步推导答案尺寸适配Nano小模型用轻量化FLAN知识蒸馏Ultra全量多任务FLAN微调。四、FLAN衍生技术FLAN-PaLM、FLAN-Gemini行业落地FLAN-PaLMGoogle初代大模型PaLM 540B采用FLAN微调诞生PaLM2是Gemini文本能力前身开发者微调Google Vertex AI开放Gemini微调接口底层封装轻量化FLAN用户上传几十条行业指令即可快速定制私有化Gemini遵循指令统一格式化规则。一、FLAN全系列数据集明细初代FLAN / FLAN-T5 / FLAN-Collection1. FLAN 2021初代62任务通用NLP合集GLUE、SuperGLUE分类、语义相似度、自然语言推断Squad v1/v2、TriviaQA、NaturalQuestions抽取式问答CNN/DailyMail、XSUM文本摘要WMT翻译子集、MRPC释义、COPA常识推理特点仅单轮文本指令、无CoT数据验证指令微调有效性。2. FLAN-T5(20221836个细分任务FLAN里程碑)① 基础NLP任务源约1200子任务T0数据集35大类、193个子任务跨语种分类、问答、生成P3(Public Pool of Prompts)海量开源Prompt模板数据集Muffin80个英文经典NLP数据集② 多语言任务NIV2NIV21554种跨语言任务覆盖100语种机器翻译、跨语言分类、跨语言QA③ CoT思维链专项数据关键大幅提升数理推理GSM8K小学数学应用题AQUA-RAT、SVAMP数学推理BigBench-Hard、BBH复杂多跳逻辑MMLU全学科选择题FLAN-T5训练配比70%常规任务 30%CoT任务混合采样4种prompt格式随机混用零样本/少样本、普通/CoT。3. FLAN Collection(2023Gemini专用底座)在FLAN-T5基础上新增三类数据适配PaLM2/Gemini对话数据人工多轮闲聊、用户助手对话样本代码任务HumanEval、MBPP、CodeSearchNet代码生成/改错/解释结构化任务SQL生成、表格问答、工具调用样例二、Gemini 各版本参数、预训练算力、数据规模1. 版本划分参数量版本参数量定位训练硬件Gemini Nano1.8B / 3.2B移动端端侧TPU蒸馏CPU量化由Pro大模型蒸馏而来Gemini Pro~34B云端主力、API商用TPUv4 SuperPodGemini Ultra~360B MoE旗舰科研、复杂多模态TPUv5p大规模集群MoE稀疏架构(激活参数约120B)Gemini无公开精准参数字符为Google白皮书披露估值。2. 预训练数据量级文本数据数万亿token网页、书籍、百科、开源代码、多语言语料过滤去重后有效训练Token≈2.8T多模态数据图文配对数十亿张图文对开源授权图片文本描述音视频百万小时带字幕音视频音频-文本、视频帧-文本对齐数据3. 算力开销Ultra预训练上万片TPUv5p连续训练数月FLOPs量级102410^{24}1024FLOPsFLAN指令微调算力仅为预训练0.15%~0.3%性价比极高RLHF阶段算力≈SFT(FLAN)的2~3倍三、Gemini多模态FLAN训练细节区别原版纯文本FLAN1. 数据格式改造原版FLAN[文本指令输入]→输出文本Gemini-FLAN3种输入格式混训纯文本沿用经典FLAN四模板图文本指令图片token问题→答案看图推理、识图问答音/视频文本指令音频/视频序列token提问→总结/问答2. 数据配比SFT阶段60%纯文本FLAN通用CoT代码30%图文多模态指令样本10%音视频问答样本3. CoT新增视觉思维链V-CoT除文本分步推理新增指令请一步步观察图片逐步推理得出答案输入图片问题输出分步描述图像特征→推导逻辑→最终答案四、FLAN标准训练超参通用T5/Gemini SFT通用优化器AdafactorGoogle标配不用手动调权重衰减学习率峰值 1e-3 ~ 5e-4余弦衰减BatchExample Packing打包样本TPU批量≈128/256EpochFLAN微调一般1~3epoch防止过拟合小众任务采样策略反频次加权采样冷门小数据集提升采样概率避免热门数据占比过高五、精简速记版方便笔记FLAN多任务统一指令微调四种prompt混合、掺CoT解决零样本弱的痛点FLAN三代2021小样本验证→2022 FLAN-T5规模化→2023 FLAN Collection对接大模型Gemini原生多模态预训练多模态FLAN(SFT)RLHFFLAN是对话能力核心Nano靠蒸馏、Pro通用、Ultra MoE超大参多模态FLAN新增图像/音视频指令V-CoTOpenAI、Anthropic对标Google FLAN的全套同类技术FLAN本质多任务统一指令微调IFT/Instruction TuningOpenAI、Anthropic不用FLAN名字但SFT指令微调自家版FLAN再叠加自研对齐方案RLHF/Constitutional AI三家后训练链路统一基座预训练 →【对标FLAN多任务指令SFT】→ 偏好对齐(RLHF/RLAIF)一、OpenAIGPT3.5/GPT4/GPT4o对标FLAN InstructGPT式SFT自研指令微调体系OpenAI没有FLAN命名InstructGPT的SFT阶段就是OpenAI版FLAN2022论文《Training language models to follow instructions with human feedback》1. SFTOpenAI版FLAN对应Gemini-FLAN数据设计对标FLAN-T5多任务指令集上万条人工标注指令样本覆盖分类、摘要、翻译、QA、推理、代码、多轮对话全任务统一格式用户自然指令 → 专家标准回答混入零样本、少样本、CoT思维链样例和FLAN四类prompt思路一致区别FLANFLAN大量用开源学术数据集OpenAI极少公共NLP数据集以人工高质量标注真实用户对话为主。训练特点全参数微调、1~3epoch、小学习率和FLAN训练超参逻辑一致GPT4o多模态升级图文配对指令微调OpenAI多模态FLAN图片文本指令配对训练对标Gemini多模态FLAN。2. OpenAI独有RLHF人类反馈强化学习SFT之后FLAN没有这一步FLAN只做SFT指令微调OpenAI在SFT后两段对齐是ChatGPT核心RM奖励模型训练同一条指令生成N条答案人工优劣排序训练打分模型PPO强化微调以SFT模型为底座RM打分做奖励迭代输出修正话术、安全性、人类偏好。完整链路预训练GPT基座 → SFT(OpenAI-FLAN) → RM → PPO-RLHFInstructGPT/ChatGPT标准流水线3. OpenAI进阶变种** rejection sampling拒绝采样**大模型批量生成答案筛选优质样本回灌SFT低成本扩充指令数据变相扩容指令集GPT4系列混合开源任务自研私有指令数据任务广度对标FLAN Collection。二、AnthropicClaude全系列Opus/Sonnet/Haiku对标FLANClaude SFT Constitutional AI宪法AIRLAIFAnthropic指令微调底层仍是SFTClaude版FLAN独创**Constitutional AI宪法AIRLAIFAI自反馈强化学习**替代纯人工RLHF是和OpenAI最大区分点。1. 第一步Claude SFT直接对标FLAN海量跨任务指令数据集通用NLP、超长文档、代码、逻辑推理、多语言、长文本摘要统一指令-标准答案格式同样掺入CoT思维链、少样本/零样本混合训练思路完全复用FLAN的多任务指令范式Claude特长超长上下文指令样本专项SFT100k上下文指令微调FLAN/GPT没有专项长文本指令集。2. Anthropic独有Constitutional AI RLAIF替代OpenAI纯人工RLHF1Constitutional AI宪法对齐Claude标志性技术先编写一套AI宪法规则数十条安全/有用准则参考人权宣言、伦理规范不用大量人工标注排序模型生成答案→模型自己对照宪法自查、自我修改劣质回答自评自改生成修正前后的对比数据作为偏好数据替代人工标注数据。2RLAIFRL from AI FeedbackAI反馈强化学习对标RLHFOpenAI人打分→训练RM→PPOAnthropicAI按宪法打分→训练RM→PPO大幅减少人工标注成本安全性由宪法规则约束。Claude完整链路预训练基座 → SFT(Anthropic-FLAN) → Constitutional自生成偏好数据 → RLAIF强化对齐3. Claude小细节XML结构化指令训练SFT阶段大量用contextinstructionXML标签封装指令模型原生学会识别结构化输入属于指令格式层面的改良版FLAN。三、三家横向对比FLAN vs OpenAI-InstructSFT vs Anthropic-ClaudeSFT技术环节Google FLAN(Gemini)OpenAI InstructGPT-SFTAnthropic Claude-SFT核心本质多任务指令微调IFT多任务指令微调IFTOpenAI-FLAN多任务指令微调IFTClaude-FLAN数据源海量开源学术数据集(T0/NIV2/GSM8K)少量人工少量开源大量人工标注对话、私有数据少量开源宪法自生成数据人工超长文档数据CoT处理四种prompt混训零/少样本普通/CoTCoT混入SFT样本CoT结构化XML指令双加持后续对齐标准RLHF同OpenAI结构人工标注RLHF(PPO)Constitutional AIAI自反馈RLAIF多模态图文音视频统一多模态FLANGPT4o图文SFTClaude3图文SFT四、行业通用名词总结IFTInstruction Fine-Tuning指令微调FLANOpenAI SFTClaude SFT只是各家名字、数据来源不同FLAN侧重用开源数据集规模化做IFTOpenAI侧重人工高质量数据做IFT人工RLHFAnthropic侧重自生成宪法数据做IFTAI自反馈RLAIF。五、衍生新技术都是FLAN/IFT思路延伸DPODirect Preference Optimization替代PPO的偏好微调现在开源圈主流去掉RM一步完成对齐ORPOSFT偏好学习合并简化传统SFTRLHF两步流程。三大厂商IFT对标FLAN精简汇总笔记一、核心一句话总结FLAN、Instruct-SFT、Claude-SFT 本质全是 IFT指令微调用海量「指令→答案」样本统一微调基座让模型听懂自然指令、零样本解决陌生任务GoogleFLAN名字标准化OpenAIInstructGPT SFT自研人工路线AnthropicClaude SFT 宪法AI自生成偏好路线二、三段式通用后训练流水线三家统一框架基座预训练 → IFT/SFT(对标FLAN) → 偏好对齐(RLHF/RLAIF/DPO)Google Gemini预训练 → 多模态FLAN → RLHFOpenAI GPT3.5/4预训练 → Instruct SFT → 人工RLHF(PPO)Anthropic Claude预训练 → Claude-SFT → Constitutional AI RLAIF三、SFT/IFT关键差异对比表项目Google FLAN(Gemini)OpenAI Instruct SFTAnthropic Claude SFT数据来源优先开源数据集T0、P3、GSM8K、NIV2多语言、BBH少量人工标注少量开源核心高价人工标注指令真实用户对话少量开源人工宪法AI自动生成偏好数据CoT方案4种Prompt混合零/少样本×常规/CoT固定配比混训CoT嵌入人工样本拒绝采样扩充优质CoTCoTXML结构化标签增强指令识别多模态图文音视频统一多模态FLANV-CoT视觉推理GPT-4V/4o图文配对SFTClaude3图文SFT对齐方案标准人工RLHF全人工标注排序→RM→PPO-RLHF宪法规则自检生成数据→AI打分RLAIF特色低成本海量任务、泛化强、小模型收益极高对话自然度最优、贴合人类聊天习惯超长上下文专项微调、人工标注成本更低四、数据量级速览FLAN-T51800细分任务数万到数十万样本开源数据集为主InstructGPT初代SFT约1.3万条人工精标指令样本少而精靠RLHF补齐泛化Claude SFT数十万级样本大量数据由Constitutional AI自我生成大幅节约人力五、对齐技术区分SFT之后步骤RLHF(OpenAI/Google)人类对同一问题多个输出打分排序→训奖励模型RM→PPO优化模型人工成本高、对齐效果贴合真人偏好。RLAIF(Anthropic)模型依托宪法规则自行批改答案、生成优劣对比数据AI替代人工打分成本低、安全可控、规模化容易。DPO(新一代替代PPO)省去RM直接用偏好数据一步优化现在开源微调主流三家最新内部均小规模试用。六、落地选型口诀低成本快速做通用大模型微调 →仿FLAN拿开源数据集做IFT做面向C端聊天产品 →仿OpenAI少量精标SFT人工RLHF长文档、企业私有化、严控标注成本 →仿AnthropicSFT宪法AIRLAIF七、补充前沿衍生IFT延伸ORPO合并SFT与偏好学习单阶段训练替代「SFTRLHF」两阶段目前微调新范式。