
1. 项目概述当大语言模型遇见“加密语法书”在自然语言处理NLP的日常工作中我们常常惊叹于大语言模型LLM的“小样本学习”或“上下文学习”能力给它几个例子它似乎就能举一反三完成翻译、摘要或分类等新任务。但这种能力背后模型究竟是在进行深度的规则理解和推理还是在进行一种更高级的、基于海量数据训练出的模式匹配与插值这个问题一直像幽灵一样萦绕在研究者心头。如果模型只是在“模仿”它见过的模式那么当面对一门完全陌生、且其规则以纯文本形式明确给出的新语言时它还能“学会”吗为了剥离模型对预训练语料的记忆依赖直接测试其显式学习与规则推理的核心能力一项来自EMNLP 2025的研究提出了一种极为精巧的“压力测试”方法用密码学技术“加密”一门真实语言如法语创造出一门全新的“人工构造语言”然后仅给模型一本关于这门新语言的“语法书”和一个小词典看它能否正确应用规则进行翻译。这就像给一个号称会学语言的天才一本用密码写成的外星语教科书然后考它翻译句子——它没法靠“我以前好像见过”来蒙混过关只能靠真正理解书里写的规则。这个方法的价值远不止于学术好奇。在现实场景中比如我们要为某个仅有少量语法描述文档的濒危语言或历史语言构建翻译系统或者希望模型快速适应某个特定领域如法律、医学高度规范化的新术语和句法规则时我们本质上都在依赖模型的这种“从规则中学习”的能力。如果模型这项能力薄弱那么所有基于“小样本示例”的应用都可能建立在沙滩上。因此这项研究为我们打开了一扇窗得以精确地观测和评估LLM的“语法消化”能力到底到了哪一步。2. 核心思路拆解为何要用“加密”来创造新语言2.1 传统评估方法的局限在评估模型学习新语言的能力时传统方法通常面临一个根本性挑战数据污染。像GPT-4、LLaMA这样的主流大模型其预训练语料库堪称互联网的缩影几乎囊括了所有高资源语言如英语、法语、中文的海量文本。当你试图测试模型“学习”法语复数规则时它很可能并非从你给的几个例子中“学会”的而是直接调用了训练时记忆的法语知识。这就好比考一个背过整本词典的学生几个单词你无法判断他是否掌握了拼读规则。因此要评估显式学习我们必须创造一个模型在预训练中绝对不可能见过的“新语言”。这就是人工构造语言Conlang概念的由来。但构造一门全新的、具备完整且复杂语法体系的语言工作量巨大且难以保证其语言学上的合理性和评估的针对性。2.2 “密码化文本”方案的巧妙之处本研究提出的“密码化文本”方案巧妙地绕过了上述难题。其核心逻辑是一个“两步替换”过程基质语言选择选取一门语法体系成熟、规则明确的高资源语言作为“基质”例如法语。法语的名词变性、动词变位、冠词搭配等规则非常系统是理想的测试对象。密码学变换对这门语言的表层形式即单词的拼写进行系统性的、可逆的密码学操作但严格保留其深层的语法结构。具体来说主要使用两种密码学技术字符替换建立一个随机映射表将原语言如法语的字母或Unicode字符替换为其他字符。例如将a-x,e-q,u-等。这样单词chat猫可能变成lxft。关键点在于这种替换是在字符级别均匀进行的不改变单词的形态结构。一个以-al结尾的名词替换后依然以一个固定的“密文后缀”结尾。字符串转置例如将单词或句子中的字符顺序反转。chat反转后变成tahc。研究中主要使用的s转置是将整个句子包括空格和标点的字符顺序完全反转。通过组合这些操作我们可以将法语的文本如语法书中的例句le chat加密成完全无法辨认的字符串如nmé lébudumà但对模型而言它接收到的“新语言”的语法描述如“阳性单数名词使用冠词nmé”在结构上与法语“阳性单数名词使用冠词le”是同构的。2.3 这样做的核心优势知识隔离模型绝对没有在预训练中见过加密后的“词汇”彻底杜绝了从记忆库中直接检索答案的可能。规则守恒测试的目标如名词复数变化、冠词一致性被完美地保留了下来。模型需要学习的不是全新的、抽象的概念而是如何将已知的语法概念性、数、格映射到一套全新的“符号表征”上。评估纯净模型的成功与否完全取决于它能否理解并应用那本加密语法书中明文写下的规则。这为评估“显式规则学习能力”提供了一个近乎实验室般纯净的环境。可扩展与可比较通过调整加密算法仅替换、替换转置可以生成不同“陌生度”的语言变体从而测试模型对不同复杂程度规则体系的适应能力。3. 实验设计与数据构建的魔鬼细节要把这个精巧的想法落地需要构建一套高质量、无漏洞的数据集。研究者的工作堪称细致入微其流程主要分为以下几个关键阶段。3.1 原材料准备语法书与词典的“采矿”首先需要为“基质语言”准备一份清晰、结构化的语法描述和一部词典。研究者选择了法语和拉丁语并从维基百科的相关页面系统性地提取内容。语法书构建提取了包括名词、动词、形容词、冠词、代词等核心章节。内容不是随意的段落而是聚焦于特定的、可测试的语言学现象。例如法语名词的复数构成规则-s-x-aux不变形等以及冠词搭配规则le/la/les。词典构建创建的词典并非完整词典而是精心挑选的目标词条。词条根据其与语法书中示例的关系被分为三类A类在语法书示例句中直接出现的词。模型可能通过简单模仿或直接复制来翻译。B类仅在语法书的元语言解释中出现如规则描述中提到“例如journal”但未在示例句中出现。模型需要将规则应用到这个词上。C类完全未在语法书中出现的词。模型必须将从语法书中学到的通用规则泛化应用到这些全新词汇上。 这种分类使得评估可以精细化模型在A类词上的成功可能只是“照葫芦画瓢”而在B类和C类词上的成功才能证明其真正的规则归纳与泛化能力。3.2 加密流程与“可控陌生化”这是整个方法的技术核心。加密不是一次性的而是为每一份训练数据动态生成的以确保多样性。生成加密映射对于每个训练实例独立生成一套随机的字符替换映射表。例如本次训练中a-z,b-y,c-x... 下一次则完全不同。应用加密使用该映射表将语法书、词典以及提示Prompt中的所有目标语言词汇进行加密。注意只加密目标语言法语部分英语部分和元语言描述如“名词的复数形式是”保持原样。这样模型得到的输是这样的“在Biruméolébu语中阳性单数名词使用冠词nmé。例如nmé lébudumà(the cat)。名词的复数通常通过添加后缀-v构成例如zudurèvko(house) 的复数是zudurèvkov(houses)。但有七个以-kp结尾的名词其复数使用后缀-ri...” 这里Biruméolébu是加密后的语言名nmé,lébudumà,-v,zudurèvko等都是加密后的“词形”。引入转置增加难度在更复杂的实验设置中除了替换还会对加密后的字符串应用s转置整体反转。这进一步破坏了任何可能的表层线索迫使模型更纯粹地依赖语法规则而非字符模式。例如nmé经过转置可能变成émn。3.3 提示工程与思维链设计为了让模型执行任务需要精心设计提示。基本范式是任务说明告知模型这是一门新构造的语言Conlang要求它将给定的英语句子翻译成这门新语言。提供资源给出少量相关的词典条目加密后的和从该语言语法书中摘录的段落加密后的。要求输出指定输出格式通常要求将翻译结果放在translation.../translation标签中。鼓励思维链提示模型“你可以先解释你的思考过程”并提供一个思维链示例。这个示例本身也是加密数据的一部分它示范了如何根据提供的语法规则一步步推理出正确答案。关键技巧提供的语法书摘录是高度“情境化”和“随机化”的。例如每次提供给模型的语法书段落其章节顺序、例子排列顺序、甚至使用的符号标记如用§还是*都可能被随机打乱。这是为了防止模型简单地记忆某个固定的文本模式而是必须去理解内容本身。4. 模型训练与评估观察“学习”的发生有了数据接下来就是让模型去“学习”并接受测试。4.1 微调与上下文学习的对比研究通常设置两种学习范式进行对比上下文学习这是LLM的“零样本”或“少样本”能力。直接将包含语法书摘录、词典和示例的提示输入给未经专门训练的模型要求它输出翻译。这测试的是模型即时理解和应用规则的能力。微调使用大量加密后的提示正确翻译配对数据对模型进行有监督微调。这模拟了“学习”过程测试模型在经过一定量的显式训练后是否能内化这些规则。4.2 评估指标与核心发现评估是逐词精确匹配吗不完全是。因为加密是随机的直接比较字符串没有意义。评估关注的是规则应用的正确性。翻译正确性对于给定的英语短语如“the confessions”检查模型的输出是否符合加密语法书中规定的所有规则。冠词选择正确吗根据名词的性和数是否选择了正确的加密冠词如nmév对应les名词变形正确吗根据规则是否对加密名词应用了正确的复数后缀如-ri对应-x词序正确吗如果加密语言采用了不同的语序如通过转置模拟了中心语在前模型是否遵循典型实验结果模式基于论文思路的推断规则越复杂表现越差对于简单的“加-s”规则模型可能很快掌握。但对于有大量例外的规则如法语中以-al,-ail,-ou,-eu结尾名词的不规则复数模型的错误率会显著上升。泛化能力是瓶颈模型在A类词示例中直接出现上表现最好在B类词规则中提到上次之在C类词全新词汇上表现最差。这说明模型从具体示例中归纳抽象规则并将其可靠地泛化到新例子的能力仍然有限。微调 vs. 上下文学习通常经过微调的模型表现远优于仅靠上下文学习的模型。这表明仅凭一次性的规则展示模型很难可靠地掌握复杂规则但通过一定量的示例训练它可以更好地内化这些模式。然而即便是微调后的模型在面对高度不规则或需要多步推理的语法现象时仍然会犯错。加密强度的影响仅使用字符替换时模型可能利用一些残留的字符分布线索。当结合了字符串转置后任务难度显著增加模型表现下降这反过来证明了转置更彻底地剥离了表层相似性迫使模型进行更纯粹的语法推理。5. 实操启示与避坑指南这项研究虽然理论性很强但其方法论和结论对我们实际应用LLM有深刻的启示。5.1 对提示工程与少样本学习的再思考我们常常迷信于模型的“小样本学习”能力。但这项研究揭示对于复杂的、具有例外情况的规则系统仅靠提示中的几个例子模型很可能只是进行了浅层的模式匹配而非深度理解。例如你给模型几个法语不规则复数的例子它可能正确翻译了journal - journaux但遇到一个没见过的、但符合规则的新词或者遇到一个例外词festival它就可能出错。实操建议规则显式化在提示中除了给例子尽量用自然语言清晰、结构化地陈述规则。例如“大多数以-al结尾的名词复数变为-aux。但以下名词是例外复数加-sbal, festival, carnaval...”。测试泛化在设计少样本示例时要有意识地包含需要泛化的案例。不要只给模型它可以直接“抄”的例子。利用思维链明确要求模型“逐步推理”并提供一个正确的推理范例。这能显著提升模型处理复杂规则任务的表现。5.2 在低资源语言与领域适应中的应用想象这项研究的范式可以直接迁移到一些现实场景濒危语言数字化对于一门只有一本语法书和一部小词典的濒危语言我们可以将其视作“基质语言”而我们需要构建的翻译系统就是“加密语言”的解码器。通过构造高质量的语法描述 例句配对数据对模型进行微调或许能快速得到一个可用的初步翻译工具。领域特定语言DSL学习比如将法律文书中的特定句式、医学术语的构词法视为一种“新语言”的规则。我们可以将这些规则“加密”即用领域内的符号和术语重述然后让模型学习如何将日常语言“翻译”成这种规范化的领域语言。代码生成与理解将一种编程语言的语法视为“语法书”将API文档视为“词典”。测试模型能否根据一份新库的API文档相当于新语言的词典和简单的用法示例语法书正确生成调用该库的代码。这本质上和“从语法书学习新语言”是同一类问题。5.3 常见陷阱与排查思路在尝试借鉴该方法或进行类似评估时需要注意以下坑点数据泄露的幽灵确保你的“新语言”或测试用例绝对没有以任何形式出现在模型的预训练数据中。对于主流LLM这非常困难。本研究采用密码学加密是解决此问题的“金标准”。规则描述的歧义性自然语言描述的语法规则本可能存在歧义。在构建“语法书”时要像编程语言的规范一样力求精确、无歧义。最好能形式化定义或者提供覆盖各种边界的充足示例。评估指标的片面性仅评估翻译输出的字符串是否正确可能不够。模型可能“蒙对”了形式但内部推理完全是错的。因此强制要求并分析模型的思维链至关重要。观察它的推理步骤是否真正引用了你提供的规则还是基于其他无关的联想。模型的“作弊”倾向大模型非常擅长寻找捷径。如果加密规则存在任何规律性比如某些后缀的映射过于简单模型可能会学会“解密”而非“理解语法”。这就是为什么需要引入转置等操作来增加难度确保评估的是语法推理能力而非密码破解能力。6. 未来展望与个人思考这项研究像一把精准的手术刀剖开了大语言模型“智能”的某一层面。它告诉我们当前的LLM确实具备一定从显式文本描述中学习和应用规则的能力但这种能力是脆弱、有条件的严重依赖于规则的复杂性、示例的数量和质量并且其泛化能力远未达到人类的水平。从我个人的实践经验来看这项研究的意义在于它提供了一种可控制的、诊断性的评估框架。当我们发现模型在某个实际任务如根据新API文档生成代码上表现不佳时我们可以借鉴这个思路将任务抽象成一个“新语言学习”问题我们提供的文档是否像一本清晰的“语法书”模型是真正理解了规则还是仅仅在模仿几个例子通过设计类似的“加密”测试例如将API函数名和参数用随机字符串替换我们可以精准地定位问题是出在规则描述的清晰度上还是模型的学习能力瓶颈上。最终这项研究指向了一个更宏大的目标如何让AI像人类一样通过阅读说明书来掌握一门新工具或新语言。我们距离这个目标还有很长的路要走但“密码化语法书”无疑为我们照亮了前进道路上的一块关键路标。它提醒我们在惊叹于模型涌现能力的同时更需要用严谨、精巧的方法去探究其能力的边界与本质。