
1. 项目概述从“玄学”到“可操作”的涌现能力拆解最近和几个做模型训练和评测的朋友聊天话题总绕不开“涌现能力”。这个词现在火得不行但聊深了发现大家对这个概念的理解其实挺割裂的。有人说它是大模型“开窍”的瞬间有人觉得是参数堆到一定量后的必然结果还有人干脆把它归为“玄学”觉得不可预测、不可复现。作为一个在算法和应用一线摸爬滚打了十多年的从业者我特别反感这种把复杂现象神秘化的倾向。在我看来涌现能力绝非玄学它背后有清晰的逻辑链条、可观测的指标以及——最关键的是——可设计、可激发的技术手段。今天这篇长文我就想抛开那些浮夸的宣传从一个实践者的角度把“涌现能力”这件事掰开揉碎了讲清楚。我们会探讨它到底怎么定义在工程和评测中如何具体识别更重要的是我会分享几种经过验证的、能够有效激发模型涌现能力的方法并对这些能力做一个实用的分类附上对应的典型任务。无论你是正在训练百亿参数大模型的研究员还是基于现有大模型构建应用的工程师相信这些从实战中总结出的经验都能给你带来一些新的思路。2. 涌现能力的本质超越训练目标的“意外之喜”在深入讨论如何激发和分类之前我们必须先统一对“涌现能力”本身的认识。这个词源于复杂系统科学指系统中个体遵循简单规则互动最终在整体层面表现出个体所不具备的、全新的、复杂的性质或行为。迁移到AI领域特别是大语言模型上我们可以这样定义大语言模型的涌现能力指的是当模型规模参数、数据、算力跨越某个临界阈值时模型表现出的、未在训练数据中显式标注、也未在训练目标中直接优化的新能力。这个定义里有几个关键点理解了它们你就抓住了涌现能力的核心。2.1 核心特征非线性、不可预测性与泛化性首先非线性。这是涌现最典型的特征。模型性能如某个任务的准确率并不会随着规模扩大而线性增长。在规模较小时模型可能完全不具备某项能力比如多步推理其表现是随机的或接近基线。一旦规模突破某个“临界点”该项能力的性能会突然出现一个陡峭的、非线性的提升从“几乎不会”到“相当不错”。这个临界点常被称为“涌现阈值”。其次不可预测性或难以预测性。基于小规模模型的表现我们很难精确预测大规模模型会在哪些任务上“涌现”出强大能力。你无法通过一个10亿参数模型在代码生成上的微弱表现准确推断出千亿参数模型是否会成为优秀的编程助手。这种不确定性正是涌现的魅力与挑战所在。最后也是最具价值的泛化性与组合性。涌现出的能力往往不是对训练数据的简单记忆而是一种更底层的、可泛化的“技能”。例如模型通过海量文本学会了“遵循指令”和“理解上下文”这两种基础能力组合起来就可能涌现出“在对话中保持角色扮演一致性”这种更复杂的高级交互能力。这种从基础元素组合出新功能的特点是智能的一个重要标志。2.2 与“缩放定律”的辩证关系这里必须澄清一个常见的误解很多人把涌现能力完全等同于“缩放定律”的产物。缩放定律确实描述了模型性能与规模计算量、参数、数据之间的幂律关系预测了增大规模会带来性能提升。但涌现能力强调的是这种提升的质变而非简单的量变。缩放定律可以预测在某个已知任务上性能会随着规模增长而平滑提升。而涌现能力描述的是在规模达到一定程度前模型在某个任务上的表现几乎为零处于随机水平规模突破阈值后该任务性能才从“无”到“有”地出现。你可以把缩放定律看作一条持续向上的缓坡而涌现能力则是这条坡道上突然出现的、陡峭的“能力台阶”。理解这一点有助于我们设计更有效的评测方法来探测涌现。注意不要神话“参数数量”。参数规模是涌现最常见、最直观的驱动因素但并非唯一。高质量数据的多样性、训练目标的精心设计如指令微调、RLHF、模型架构的改进如MoE都可能影响涌现的阈值和表现形式。单纯堆参数是一条路径但不是唯一路径更不总是最优路径。3. 如何识别与评测涌现能力从直觉到指标在工程实践中我们不能只靠“感觉”说模型涌现了某个能力必须有可观测、可量化的手段。这一部分我会结合我们团队在模型评测中的实际经验分享一套操作性较强的识别框架。3.1 设计针对性的评测任务集要探测涌现你的评测任务必须足够“刁钻”。它应该具备以下一个或多个特征任务复杂性需要多步骤推理、信息整合或复杂决策。例如不是简单的“翻译这句话”而是“根据这篇中文科技论文的摘要生成一个英文的、面向高中生科普的短视频脚本大纲”。训练数据稀缺性任务形式或领域在模型的预训练数据中非常罕见。例如让模型处理一种虚构语言的语法或者解决一个完全由符号和逻辑规则构成、在现实文本中几乎不出现的问题。零样本或小样本要求评测应在模型未针对该任务进行任何微调的情况下进行零样本或仅提供极少的示例小样本如1-3个。这能检验模型从预训练中获得的内生泛化能力而非对特定任务的过拟合。我们内部会维护一个“涌现能力探测集”里面包含上百个这样的任务横跨数学推理、代码生成、跨模态理解、复杂规划、反事实推理等多个维度。每当有新模型出来第一件事就是跑一遍这个探测集观察其在各任务上的表现曲线。3.2 绘制“能力-规模”曲线这是识别涌现最直观的方法。具体操作如下选取一个目标能力如“三位数算术”。准备一个评测该能力的基准数据集如1000道三位数加减法题目。获取或训练一系列同架构、不同参数规模的模型例如从1B, 3B, 7B, 13B, 70B到数百B。在零样本设置下用同一套提示词模板测试所有模型在该数据集上的准确率。以模型规模参数量的对数刻度为横轴任务准确率为纵轴绘制散点图并拟合曲线。如果观察到曲线在某个规模区间出现近乎垂直的快速上升从接近随机水平如两位数加减法可能随机猜对10%三位数可能只有1%跃升到显著高于随机水平例如超过50%那么就可以认为在该规模附近模型“涌现”出了此项能力。3.3 案例分析从“记忆”到“推理”的跨越以数学推理为例。小规模模型如7B以下做多位算术本质上是在“记忆”训练数据中出现的数字组合和答案模式。你给它“123456”它可能见过这个例子所以能答对。但你给它一个在训练数据中几乎不可能出现的“889774”它就会胡言乱语。当模型规模达到一定程度比如70B以上配合高质量的数据和训练你会发现它突然能处理那些它几乎不可能“记忆”过的题目了。这时模型内部很可能形成了一种对数字、运算符的抽象表征和符号操作能力即真正的“计算推理”。这种从“模式匹配”到“符号操作”的转变就是一次典型的涌现。在评测曲线上你会看到在某个参数点之后模型在陌生算术题上的准确率陡然上升。4. 激发涌现能力的常见工程手段知其然更要知其所以然。了解了什么是涌现以及如何识别它我们最关心的自然是在模型训练和优化中有哪些手段可以主动地、更有效地激发涌现能力以下是我从多次模型训练迭代中总结出的几个关键方向。4.1 数据工程的精耕细作质量大于数量早期大家认为“数据越多越好”但现在共识正在转向“数据越精越好”。高质量、高多样性、经过精心清洗和配比的数据是降低涌现阈值、催生更强大能力的基础。多样性覆盖预训练数据不能只是堆砌网页文本。需要系统性地纳入代码、科学论文、多语言文本、结构化数据如表格、高质量的对话和指令数据。这种跨领域的知识融合是模型进行类比、迁移和组合创新的土壤。例如代码数据训练出的严格逻辑性与文学数据训练出的创造性可能共同催生出更严谨的故事创作能力。难度阶梯化在数据中混合不同难度的内容。就像教孩子要从看图识字过渡到短文阅读再过渡到议论文。数据中既要有简单的事实陈述句也要有包含复杂逻辑链的论述文、需要多步推理的数学题解。这种阶梯式的数据暴露有助于模型逐步构建起处理复杂任务的心理表征。主动构造“思维链”数据这是激发复杂推理涌现的关键。在训练数据中不仅提供问题和答案更提供得到答案的详细步骤CoT。例如一道数学题附上一步步的演算过程一个常识推理问题附上逻辑推导链条。让模型在预训练阶段就大量接触这种“慢思考”的模式能显著促进其在后续零样本/小样本设置下自主生成思维链的能力。实操心得数据配比是一门艺术没有固定公式。我们的经验是采用“动态课程学习”的思路。在训练初期提高高质量、格式规范数据如维基百科、书籍的比例打好语言理解和知识基础。在训练中后期逐步引入更多样、更复杂、噪声也相对更大的数据如经过滤的网页数据、对话数据并提升代码数据的比例以刺激逻辑和推理能力的形成。整个过程需要密切监控模型在多个探针任务上的表现及时调整。4.2 训练目标与架构的协同设计模型怎么学和它学什么同样重要。下一个词预测的魔力与局限标准的自回归语言模型预测下一个词本身就是一个强大的元学习目标。它迫使模型去建模数据中隐含的语法、逻辑、事实和推理模式。很多基础能力如语法、基础常识、简单关联通过这个目标就能很好地学习。它是涌现的“必要不充分条件”。指令微调与对齐的催化作用指令微调Instruction Tuning和基于人类反馈的强化学习RLHF常常是涌现的“催化剂”。预训练模型就像一个掌握了大量知识和潜在技能的“通才”但它不知道何时、以何种方式使用这些技能。指令微调通过大量的指令输出配对数据教会模型理解并遵循人类的意图。这个过程常常能“激活”或“解锁”模型在预训练中已经习得但未显式表现的能力。例如一个经过指令微调的模型其代码生成、文本总结等能力往往会比同规模仅预训练的模型有质的提升仿佛一下被“点醒”了。模型架构的潜力虽然Transformer是当前主流但具体的架构设计会影响涌现效率。例如混合专家模型通过动态激活参数能以更少的激活参数量达到甚至超越稠密模型的效果这可能会改变某些能力涌现的规模阈值。此外更长的上下文窗口如支持128K以上使得模型能处理超长文档这种“记忆”和“关联”能力的扩展本身就可能催生新的应用涌现比如对整本小说进行连贯分析、总结。4.3 提示工程的“临门一脚”对于使用现有大模型的开发者来说提示工程是激发其潜在涌现能力最直接、最经济的手段。一个好的提示词相当于给模型提供了一个高效的“思考框架”。思维链提示这是最经典的激发推理涌现的方法。在问题前加上“让我们一步步思考”或“请分步骤推理”能显著提升模型在数学、常识推理、复杂规划等任务上的表现。它引导模型将内部隐含的推理过程外显化模仿了数据中“思维链”的格式。角色扮演与系统提示通过设定角色“你是一个经验丰富的软件架构师”和详细的任务约束“请用Python编写要求代码有详细的错误处理并附上单元测试示例”你可以将模型的泛化能力定向引导到特定专业领域激发出更专业、更符合要求的输出。这本质上是为模型的“能力组合”提供了一个具体的应用场景。自洽性与多路径采样对于复杂问题单一生成结果可能不稳定。采用“多路径采样投票”的策略生成多个答案选择最一致的那个可以显著提升输出的可靠性。这种方法能聚合模型在不同“思考路径”下的结果往往能选出更优解可以看作是利用群体智慧从模型内部“涌现”出更优答案。5. 涌现能力的实用分类与典型任务为了更系统地理解和应用我们可以将观察到的涌现能力进行大致的分类。这种分类不是绝对的但有助于我们在构建应用时有针对性地进行测试和优化。5.1 推理与问题解决类这类能力标志着模型从“记忆模仿”走向“逻辑思考”。多步数学与逻辑推理典型任务解决高中数学应用题、逻辑谜题如爱因斯坦谜题、进行符号推演。激发手段思维链提示、提供少量推理示例小样本学习、在训练数据中加强数学和逻辑内容。评测指标步骤正确率、最终答案准确率。代码生成与调试典型任务根据自然语言描述生成完整函数或小程序理解现有代码并修复其中的bug将代码从一种语言迁移到另一种语言。激发手段指令微调明确要求生成可运行代码、提供详细的函数签名和注释要求、使用代码专用提示模板如“你是一个Python专家…”。评测指标代码通过单元测试的比例、功能实现完整度、代码风格符合度。复杂规划与分解典型任务给定一个宏大目标如“组织一场线上技术大会”输出详细的可执行步骤清单、时间线和资源分配建议。激发手段要求模型“首先进行任务分解”或提供规划框架模板如“目标-子目标-行动项-负责人”。评测指标步骤的合理性、可操作性、完整性和逻辑顺序。5.2 知识融合与创造类这类能力体现了模型连接不同领域知识并进行创造性输出的潜力。跨领域类比与概念融合典型任务“用计算机TCP/IP协议的三次握手过程来解释男女恋爱中确立关系的过程要求幽默且贴切。”激发手段明确要求进行“类比”并指出源领域和目标领域。提供一两个高质量的类比示例效果极佳。评测指标类比的贴切性、创造性、解释的清晰度。创造性写作与风格迁移典型任务以海明威的“冰山风格”写一篇关于未来城市的微型小说将一段科技新闻改写成莎士比亚十四行诗的风格。激发手段提供清晰的风格描述和代表例句或直接提供一段原文要求进行风格仿写。角色扮演提示“你是一位模仿海明威的AI作家”也很有用。评测指标风格模仿的相似度、内容的连贯性与创造性。反事实推理与假设生成典型任务“如果恐龙没有灭绝人类文明会如何发展”“假如智能手机在19世纪就被发明历史进程会有哪些不同”激发手段直接以“如果…那么…”的句式提问。鼓励模型基于现有知识进行合理外推并说明推理依据。评测指标推理的逻辑自洽性、与已知事实的连贯性、想象的丰富度。5.3 交互与理解类这类能力关乎模型如何与人类及其他系统进行有效、深入、多轮的互动。深层意图理解与上下文保持典型任务在长达数十轮的多轮对话中始终记住用户早先设定的偏好、身份信息和对话目标并据此做出回应。例如在扮演某个历史人物的对话中不偏离该人物的知识范围和语言风格。激发手段在系统提示中明确角色和背景设定并在长对话中适时地进行关键信息重述或总结以强化模型的“记忆”。使用具有长上下文窗口的模型是基础。评测指标对话一致性评分、对历史指代的准确回应率、角色扮演的贴合度。自我反思与修正典型任务让模型生成一个答案后自行检查其中的事实错误、逻辑矛盾或表述不清之处并提出修正方案。激发手段采用链式提示例如“第一步回答问题。第二步批判性地检查你的答案列出可能存在的问题。第三步根据检查结果给出一个改进后的最终答案。”评测指标自我检出的问题有效性、修正后答案的质量提升程度。6. 实践中的挑战与应对策略追求涌现能力的过程并非一帆风顺会遇到不少坑。这里分享几个我们踩过的雷和总结的应对方法。6.1 评测的陷阱如何避免“虚假涌现”有时候模型表现提升并不是因为获得了新能力而是因为其他原因。需要警惕以下几种情况数据泄露你的评测任务或极其相似的数据可能已经存在于模型的预训练数据中。模型只是在“回忆”而非“推理”。应对尽量使用最新构造的、私有的或经过严格去重的评测集。对于公开基准要关注其数据收集时间与模型训练数据时间的重叠度。提示词敏感度模型性能可能极度依赖提示词的具体措辞、格式甚至标点。换一种问法结果可能天差地别。应对进行提示词鲁棒性测试。对一个任务设计多种不同风格但语义相同的提示词观察模型表现的方差。稳定的表现比单一高分更有说服力。评价指标片面例如在代码生成中只关注功能正确性而忽略了代码效率、可读性和安全性。应对设计多维度的评价体系。对于生成任务除了自动化的指标如BLEU, ROUGE必须加入人工评估检查事实准确性、逻辑连贯性、有害性等。6.2 效率与成本的平衡追求更大的规模以获取涌现能力意味着惊人的算力成本。对于大多数团队来说盲目追求参数量是不现实的。重点方向与其押注于训练一个全新的千亿模型不如专注于高质量数据建设用更少但更好的数据训练出能力更强的中小规模模型如7B-70B。这条路径的性价比可能更高。精调与对齐选择一个优秀的开源基础模型通过领域精调Domain-specific Fine-tuning和高效的对齐方法如DPO将其能力定向激发和强化到你的特定业务场景中。模型集成与协作结合多个各有所长的中小模型通过路由或投票机制让它们协同完成复杂任务。有时这种“群体智慧”能模拟出大模型的涌现效果。6.3 可控性与可解释性能力越强越难控制。一个能进行复杂推理的模型也可能产生更复杂、更隐蔽的错误或有害内容。建立多层防护网输入过滤对用户输入进行敏感词和恶意指令的检测。过程监控在模型生成过程中实时检测其输出的安全性、事实性。对于高风险任务如医疗、法律建议要求模型同时输出其推理依据或参考来源。输出后处理对最终输出进行二次校验例如通过另一个小模型进行事实核查或安全性评分。持续的红队测试组建专门的团队像黑客一样不断尝试“攻击”你的模型诱导其产生错误、偏见或有害输出。将这些攻击案例转化为训练数据用于模型的持续迭代和安全对齐。7. 未来展望从被动观察到主动工程回顾过去几年我们对涌现能力的认识经历了一个从“神秘现象”到“可观测指标”再到“部分可激发手段”的过程。虽然仍有很多未解之谜但方向已经越来越清晰。我个人认为下一阶段的重点将是从“被动观察涌现”转向“主动工程化涌现”。这意味着更科学的评测体系开发更精细、更能揭示模型内部工作机制的探针任务和评测方法不仅看模型“能不能”做更要看它“怎么”做。训练流程的精细化控制像调制化学试剂一样更精准地控制数据配方、训练阶段和目标函数以期在更小的规模、更低的成本下定向地诱导出所需的能力。能力模块化与组合探索如何将大模型中涌现出的不同能力“模块化”并通过外部机制如智能体框架、工具调用进行灵活组合构建出解决复杂问题的流水线。对于我们应用开发者而言理解涌现能力的本质和激发手段最大的价值在于能更理性地评估模型潜力更高效地设计提示和交互流程从而在现有模型的基础上挖掘出远超其表面参数的实用价值。它让我们明白与其等待下一个“奇迹模型”不如深耕手头的工具通过精巧的设计将它的潜力逼到极限。这个过程本身就是一种充满挑战和乐趣的技术实践。