诺基亚贝尔实验室与巴黎理工学院联手破解AI“格式枷锁“

发布时间:2026/6/4 8:11:16

诺基亚贝尔实验室与巴黎理工学院联手破解AI“格式枷锁“ 这项由诺基亚贝尔实验室Nokia Bell Labs与法国巴黎理工学院旗下的巴黎电信学院Télécom Paris, Institut Polytechnique de Paris联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2601.07525v2有兴趣深入探究的读者可通过该编号检索完整原文。**当AI被格式紧箍咒束缚了思维**你有没有遇到过这样的情况老师要求你写一篇作文必须严格按照开头-分论点一-分论点二-结论的格式来结果你发现自己花了大量精力斟酌格式反而把该说的道理没说清楚大语言模型也就是我们平时所说的AI对话系统比如ChatGPT这类工具正面临着完全一样的困境。这个困境的根源在于AI系统被要求同时完成两件事一是好好思考问题二是把答案装进规定的格式盒子里。格式盒子越严格思维空间就越受限。这项研究的核心问题正是能不能让AI先把思维过程彻底放开等想清楚了再套上格式外衣研究团队给出的答案是一个名为In-Writing的新框架。这个框架就像给AI设计了一套先草稿后定稿的工作流程让它在思考阶段完全自由发挥只有在准备输出最终答案时才启动格式约束机制。实验结果表明这种做法在多项任务上的准确率最高可以比原有方法提升27%。**一、AI回答问题为什么需要格式这件事**在理解这项研究之前需要先搞清楚一个背景问题AI为什么要在乎格式当我们在工作或生活中使用AI工具时很多时候并不是随便聊聊天而是需要AI输出结构化的内容。比如医院系统需要AI给出标准化的诊断代码财务软件需要AI输出固定格式的数据开发者工具需要AI生成符合特定语法规范的代码。这些场景的共同特点是输出必须合规不能有一点歪斜否则后续系统根本无法处理。用一个更直观的比方来说这就像餐厅的后厨系统和前台点单系统之间的对接。顾客可能用各种方式说我要一份宫保鸡丁少辣但后厨收到的指令必须是标准化的代码格式比如item_code: 0031, spice_level: 1。如果AI输出的答案像顾客点单一样随意后台系统根本不知道该怎么处理。正因如此研究人员长期致力于让AI输出更加规范、可解析的内容。目前主流的方法大致分为三种路线而这三种路线各自都有明显的缺陷这也正是本研究的出发点。**二、三条老路各有各的坑**第一条路叫做自然生成Natural Generation顾名思义就是让AI像聊天一样随意回答不施加任何格式限制。这种方式的优点是AI的思维完全自由能充分展开推理过程推理质量往往相当不错。但缺点也很明显AI有时候会把答案藏在一大段文字中间需要额外设计程序去挖出来而且挖出来的结果不一定准确。更重要的是输出格式无法保证对于需要结构化输出的工业场景几乎没有实用价值。第二条路叫做硬约束解码Constrained Decoding这是研究界为了解决格式问题而开发的技术。它的工作原理类似于给AI戴上一副特殊的滤镜——在AI每生成一个词之前系统会检查这个词是否符合预先设定的格式规范如果不符合就直接屏蔽掉强迫AI只能选择合法的词语。从格式保证的角度来说这种方法非常可靠输出的内容百分之百符合规范。但问题在于这副滤镜同时也限制了AI的思维。研究发现这种方法会让AI在推理阶段就受到约束导致一些在普通情况下完全正确的推理路径被强行切断最终结果反而变差了。用打比方的方式说这就像你在解数学题时老师规定你只能使用加法和减法所以你不得不放弃更简洁的乘法解法绕了一大圈才得到答案有时候甚至绕不回来。第三条路叫做两阶段转换NL-to-Format算是前两种方法的折中。具体做法是先让一个AI用自然语言给出完整的推理和答案然后再用另一个通常更大、更贵的AI把这个自然语言答案转换成需要的格式。这种方法在一定程度上兼顾了推理质量和格式规范但代价是需要调用两次AI成本翻倍而且转换过程本身也可能出错特别是在需要输出复杂多字段格式时转换质量很不稳定。更要命的是如果第二个AI解读第一个AI的输出时出了差错最终答案就会跑偏而你甚至不知道问题出在哪一步。还有一种叫做CRANE的方法它试图在推理过程中来回切换自由模式和约束模式用特殊的分隔符号来区分哪些部分是AI在自由推理哪些部分需要受到格式约束。虽然这个思路有一定创意但执行起来相当复杂而且切换的时机很难把控实际效果也受到了研究团队的质疑。**三、先打草稿再誊正的In-Writing框架**面对这三条老路的各种缺陷研究团队提出了In-Writing。其核心理念可以用书法练习来理解先在草纸上随意挥洒把所有想法都记录下来等到思路完全清晰之后再拿出正式的格式纸工工整整地誊写最终答案。具体的技术实现方式是这样的AI在回答问题时首先进入自由推理阶段这个阶段完全没有任何格式约束AI可以用任何它觉得合适的方式思考和表达。当AI认为自己已经想清楚了它会输出一个特定的触发词trigger token。这个触发词就像是草稿纸上写下定稿如下四个字标志着推理阶段的结束和格式化输出阶段的开始。从触发词出现的那一刻起系统才会启动格式约束机制确保接下来的最终答案完全符合预定规范。研究团队在原论文中用了一个颇为传神的类比这种方法类似于图像处理领域的修复绘画技术inpainting就是只对图像的特定区域进行处理而不改动其他部分。In-Writing同样只对最终答案输出这个特定区域施加格式约束让推理过程保持完整和自由。从数学角度来理解别担心这里只是帮助理解不需要真正做计算传统的约束解码会让格式要求影响到整个推理过程导致很多合理的推理路径被提前排除。而In-Writing通过将推理阶段和格式化阶段彻底分离使得推理过程完全不受格式条件的干扰只有最终的答案输出才需要满足格式要求。这种分离带来的好处是双重的推理质量不会因为格式约束而下降同时最终输出又能保证百分之百的格式合规性。**四、触发词的选择大有讲究——早醒的烦恼**研究团队在设计In-Writing时遇到了一个棘手的问题他们将其称为过早触发premature triggering。回到书法的比喻如果你在草稿纸上写了一半突然以为自己已经写好了就急忙切换到正式格式纸开始誊写结果发现还有很多内容没想清楚这时候再想回去补充草稿就麻烦了。In-Writing面临的是类似的问题——如果触发词选择不当AI可能在还没推理完的时候就误以为该输出答案了从而过早启动格式约束把后续的推理过程也强行套进格式里反而破坏了推理质量。研究团队测试了两种触发词策略。第一种叫做In-Writing-Base使用了两个触发词一个是句子结束符即AI认为一段话已经说完的信号另一个是大括号{JSON格式的开始符号因为研究团队选择用JSON这种结构化格式来包装最终答案。问题在于AI在推理过程中可能随时产生大括号这个符号比如在描述一个集合或者举例时这就会意外触发格式约束截断正在进行的推理。第二种叫做In-Writing*只使用一个触发词就是句子结束符。这个选择的逻辑很简单只有在AI真正认为整段输出已经完成时才会出现它不会在推理中途随意出现。因此用作为唯一触发词可以确保AI在完全自由地推理完毕并自然结束之后才开始格式化输出。实验结果表明这个简单的调整几乎完全消除了过早触发的问题特别是在需要复杂数学推理的任务上In-Writing-Base可能因为过早触发而损失超过30%的准确率而In-Writing*则能稳定保持最优性能。**五、实验设计公平竞技场上的全面检验**为了验证In-Writing的效果研究团队搭建了一个非常全面的测试体系而且特意设计了一个对自己不利的条件以此来证明方法的鲁棒性。在模型选择上团队测试了18个来自五个不同系列的开源语言模型参数规模从15亿到140亿不等涵盖了Qwen通义千问系列、Llama、Gemma、DeepSeek以及SmolLM这些在业界广泛使用的模型家族。所有测试都在NVIDIA A40显卡上本地运行而非依赖商业API服务。在测试任务上团队选择了两大类共七个数据集。推理类任务包括需要多步数学推理的小学数学题库GSM8K、将数字替换为变量以测试代数泛化能力的符号变体GSM-Symbolic、将单词最后一个字母拼接起来的字母连接任务Last Letter Concatenation以及预测物品在一系列交换操作后位置的打乱物品任务Shuffled Objects。分类类任务包括49类医学诊断数据集DDXPlus、5类金融文本分类MultiFin、体育相关句子的真实性判断Sports Understanding以及对格式非常敏感的刻板印象多选题NI-Task 280。特别值得关注的是研究团队在实验设计上有一个主动让步他们沿用了之前其他研究团队的提示词模板而这些模板完全没有为In-Writing的输出格式提供任何引导。换句话说AI在推理完之后完全靠格式约束机制自动输出结构化答案而不是因为提示词中已经告诉它请用JSON格式输出答案。这种设计使得测试条件对In-Writing相对不利但结果表明即便在这种不利条件下In-Writing依然表现优异。**六、数字背后的故事实验结果说明了什么**实验结果揭示了几个非常有意思的现象每一个都值得细细品味。第一个现象是提取方式决定成败。研究团队发现在使用相同提示词的情况下自然生成NL、两阶段转换NL-to-Format和In-Writing*这三种方法实际上产生了完全相同的推理过程区别只在于最后一步如何从推理结果中提取答案。也就是说AI想到的内容是一样的但不同的提取工具带来了截然不同的准确率。In-Writing*的结构化约束提取方式比用另一个大模型来解读的方式更准确最高可以多提取出27%的正确答案。这个发现非常重要因为它表明在很多情况下准确率的差异并不来自AI的推理能力而来自最后的答案提取环节。第二个现象是大模型解读也会出错。两阶段转换方法依赖一个更大的AI来解读第一个AI的输出理论上应该很可靠。但实验中发现解读模型有时候会犯很奇怪的错误。在DDXPlus医学诊断任务上解读模型有时候会在正确答案前面加上一大段解释性文字比如符合给定有效诊断列表的最终答案是……然后才给出诊断名称导致后续程序无法正确匹配答案。更令人担忧的是在字母连接任务中解读模型有时候会纠正第一个AI的输出——比如第一个AI在字母之间加了不必要的连字符解读模型把这些连字符去掉了有时候这样的纠正反而把错误答案变成了正确答案。这意味着两阶段方法有时候不是在提取答案而是在修改答案这本质上是一种不透明的操作让人无法信任最终结果的来源。第三个现象是格式约束不是银弹。研究团队通过详细分析发现In-Writing虽然表现出色但并非完美无缺。在GSM8K数学题中存在一些案例AI在自由推理阶段得出的文字答案是52500美元但最终的格式化输出却只写了52。这说明格式约束机制在将推理结果翻译成结构化输出时有时候会截断或误解原始推理这是未来需要继续改进的方向。在与CRANE方法的对比上数字差异更加显著。以Llama 3.1-8B模型为例CRANE在GSM-Symbolic任务上的准确率是33%而In-Writing*达到了59%差距高达26个百分点。研究团队还特别指出这种差距与另一项独立研究的发现高度吻合从GSM8K到GSM-Symbolic同等能力的模型通常只会下降约10%的准确率。CRANE框架导致了远超这个正常水平的性能下降说明它的语法约束确实对推理过程造成了实质性伤害而In-Writing*的下降幅度则维持在正常范围内。**七、解析能力与效率两个不容忽视的维度**除了准确率之外研究团队还从两个额外维度对比了各种方法的表现格式合规率parsability和词汇消耗效率。在格式合规率方面In-Writing*在所有测试场景中都达到了100%的格式合规率。相比之下自然生成方法的格式合规率因模型大小和任务类型而差异悬殊有些情况下甚至不足40%。两阶段转换方法虽然提升了格式合规率但仍然无法保证100%而且解读阶段使用的提示词和模型对结果影响极大稳定性较差。硬约束解码方法也能达到较高的格式合规率但会影响推理质量这是一个两难困境。在词汇消耗效率方面结果相当令人满意。In-Writing*比自然生成方法多消耗的词汇量非常有限通常只多出5到20个词这些额外词汇主要是JSON格式所需的括号、引号等结构性符号。相比之下两阶段转换方法虽然在当前测试中只多消耗了2到5个词但这只是因为测试中的解读任务相对简单当需要提取的是复杂的多字段结构化输出时第二个AI需要消耗的词汇量会急剧增加而且这第二次推理本身就是一笔不小的计算开销。还有一个细节值得关注研究团队在复核前人数据时发现了一些实验设计上的问题。比如在打乱物品任务的提示词模板中有两个变体明明列出了七个选项A到G却在指令中错误地写道请从以下四个选项中选择。另外少样本示例中有几个题目比如挪威男人很无聊的答案竟然是种族和目标任务毫无关联这些问题都可能影响对比结果的可靠性。这些发现提醒读者在看待任何AI性能对比数据时都需要关注实验设计本身的严谨性。**八、重叠分析谁能弥补谁的不足**研究团队还做了一项很有价值的交叉分析在相同推理过程的基础上In-Writing*和两阶段转换方法分别在哪些题目上成功哪些上失败两者的成功与失败是否重叠以字母连接任务为例SmolLM3-3B模型的分析结果显示有53.5%的题目两种方法都做对了有34%的题目两种方法都做错了有0.7%的题目只有两阶段转换做对了而In-Writing*做错了但有高达11.8%的题目只有In-Writing*做对了而两阶段转换却失败了。这个分布说明In-Writing*能够弥补两阶段转换大部分的失败案例而两阶段转换能弥补的In-Writing*失败案例却很少。这种不对称性的来源是两种方法的根本差异In-Writing*的格式约束机制除了提取答案之外还能对答案进行隐性的纠错——如果AI在推理中输出了格式不合规的内容比如在字母之间加了多余的空格格式约束会在输出最终答案时自动过滤掉这些错误将正确的内容以规范格式呈现出来。这是一种免费附赠的纠错功能而两阶段转换方法除非解读模型恰好能识别并修正这类错误否则无法获得这个优势。**局限性不回避研究团队的坦诚**研究团队在论文中明确承认了In-Writing当前版本的主要不足整个研究过程中他们没有对提示词进行任何专门针对In-Writing的优化。测试中使用的所有提示词都是为自然生成或两阶段转换方法设计的里面通常包含类似请在最后用answer is:前缀给出答案这样的指引这对In-Writing来说完全没有用。更进一步随着少样本示例数量的增加AI会越来越倾向于严格遵守answer is:这个格式反而在某些情况下降低了In-Writing和两阶段转换方法的提取准确率因为AI给出的答案格式越来越不像JSON结构而是越来越像自然语言前缀。这表明如果专门为In-Writing设计优化的提示词其表现很可能还会进一步提升。此外格式约束机制偶尔会在将推理结果转化为结构化输出时产生错误比如截断数字或混淆符号这是技术层面仍需改进的问题。归根结底In-Writing提供了一个在推理质量和格式规范之间实现双赢的清晰思路不是让AI在思考时就戴上格式枷锁而是让它先自由思考然后通过一个精准的最后一公里格式约束将答案装进合适的容器里。这个思路的成本极低只多消耗5到20个词汇带来的收益却相当可观——无论是准确率、格式合规率还是系统复杂度的降低都有明显改善。对于那些需要在工作中使用AI工具处理结构化输出任务的人来说这项研究意味着一种更可靠、更高效的AI部署思路即将成为可能。不必再纠结于要准确率还是要格式未来的AI系统完全可以在单次调用中同时做好这两件事。有兴趣进一步了解技术细节的读者研究团队已在GitHubNokia-Bell-Labs/InWriting开放了全部代码同时原论文arXiv:2601.07525也提供了完整的理论推导和实验数据。QAQ1In-Writing框架和普通的AI回答方式有什么区别A普通方式要么让AI完全自由回答格式没保障要么从一开始就给AI套上格式枷锁推理受限。In-Writing的区别在于它把这两个阶段分开先让AI完全自由地把问题想清楚等AI认为自己推理完毕、产生一个特定的结束信号之后才启动格式约束把最终答案规规矩矩地输出成需要的格式两个阶段互不干扰。Q2过早触发问题是怎么产生的怎么解决A过早触发是指AI在还没推理完的时候就误触发了格式约束机制导致后续推理被强行截断。这个问题的根源是触发词选择不当——如果用大括号{作为触发词AI在推理中随时可能用到这个符号就会意外启动格式约束。解决方案是只用句子结束符作为唯一触发词因为这个信号只有在AI真正认为整段输出已经完成时才会出现几乎完全消除了过早触发的风险。Q3In-Writing多消耗的词汇量会不会显著增加使用成本A不会。实验数据显示In-Writing*相比普通自然生成方式只多消耗5到20个词汇这些额外的词主要是JSON格式所需的括号和引号等结构性符号。相比之下两阶段转换方法需要再调用一个大模型来解析答案整体计算开销远高于In-Writing而且第二次调用还需要把第一次的完整输出作为输入输入词汇量本身就很大。所以In-Writing的额外开销是相当微小且固定的。

相关新闻