首尔大学：AI语言模型存在写作自信度与实际质量评估偏差问题-尧图网站设计

这项由首尔大学Seoul National University多个研究院联合开展的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.28181涉及首尔大学RICS、AIIS、IPAI研究院以及智能信息系系同时有来自大邱庆北科学技术院DGIST的研究人员参与。感兴趣的读者可通过arXiv:2605.28181查阅完整原文。这篇论文讨论的是一个表面上看起来很技术性但核心逻辑其实非常日常的问题**一个AI模型在回答问题到一半的时候突然以为自己已经说完了——然后就真的停下来了。** 这不是程序崩溃也不是出了什么错误而是这类AI本身的工作方式造成的一种过度自信陷阱。研究团队找到了这个问题的根源并提出了一套几乎不需要改动AI本身任何参数、只需在推理时加入几个小技巧的解决办法。一、先搞清楚这种AI是怎么工作的要理解这个研究在做什么我们得先了解一种叫做扩散语言模型Diffusion Language Models简称DLM的AI文字生成技术。大多数人熟悉的ChatGPT那类模型生成文字的方式类似于一个人一个字一个字地往后说必须先说完前一个词才能说下一个词完全是从左到右的顺序。扩散语言模型的工作方式完全不同。可以把它的生成过程理解为一开始系统把所有要输出的位置都打上了马赛克在技术上叫做[MASK]遮盖标记然后通过多轮处理逐步把这些马赛克揭开还原成真正的文字。更有趣的是它不需要按顺序从左到右揭开马赛克而是可以同时揭开任意位置的马赛克——就像你在拼一幅1000块的拼图时可以同时往多个区域填入拼块而不是必须从左上角一块一块地往右拼。这种并行处理的特性使得扩散语言模型在速度上有巨大的潜力优势也是近年来学界热门的研究方向。LLaDA大型语言扩散架构和Dream都是目前具有代表性的大规模扩散语言模型参数规模分别达到了80亿和70亿性能已经接近同等规模的传统语言模型。然而这种可以同时处理多个位置的自由度也带来了一个关键挑战**每一轮处理时模型必须决定先揭开哪些位置的马赛克。** 这个决策就是本研究的核心问题所在。二、模型是怎么决定先揭哪块马赛克的目前最主流的做法叫做基于置信度的解码confidence-based decoding。简单来说模型在每一轮处理时会对所有还被遮盖的位置进行预测同时给出自己对这个预测有多少把握。把握越大就越先揭开那个位置。这个逻辑听起来非常合理就像做多项选择题的时候先把自己最有把握的题目答完再回头处理难题。这种策略被称为顶级概率解码top-probability decoding——优先揭开那些预测概率最高的位置——或者它的变体顶级边际解码top-margin decoding——优先揭开那些排名第一和第二的预测之间差距最大的位置也就是最笃定的位置。问题在于**高置信度并不总是意味着这个位置真的准备好了被揭开。** 这就是本研究发现的两个被自信心骗到的典型场景。三、第一个陷阱模型以为自己说完了其实才说了开头研究团队发现对于经过指令微调的扩散语言模型来说在回答区域的末尾位置EOT标记往往会获得极高的置信度——即使回答才刚刚开始。于是基于置信度的解码策略就会优先揭开这些位置模型就真的输出了一个EOT标记然后提前停止了整个生成过程。用一个日常比喻来理解这就好像你让一个助手写一篇500字的作文但他在写了三句话之后突然觉得自己很有把握这篇文章已经结束了于是在第四行就写上了全文完然后提交给你。内容完全不够但他自己非常自信。论文中展示了一个具体例子一道关于网球的数学题模型只生成了半句设x为第二局球的数量然后就跟了一个EOT标记整个回答就这样结束了正确答案根本没有算出来。这种现象被研究团队称为EOT过度自信EOT overconfidence。四、一个看似聪明的修复方案却制造了新问题既然模型会被EOT标记的高置信度误导一个直接的解决方案是在回答区域的末尾预先插入一段提示语告诉模型这里还没结束后面还要写内容。这种做法叫做后缀锚点suffix anchor——在回答区域临近结尾处预先填入一段固定的短语例如在数学推理题中放入The answer is答案是或者在代码生成任务中放入return关键字。这个后缀锚点的存在相当于给模型设置了一个路标你必须把内容写到这里而且这里还在等待答案所以别轻易停下来。研究结果证实插入后缀锚点后模型提前结束生成的现象大幅减少——EOT标记出现的比例从很高的水平显著降低。然而后缀锚点又带来了一个新的麻烦。研究团队发现**锚点周围的几个位置会产生异常高的置信度**导致模型在生成前面内容之前就急着先把锚点附近的答案位置揭开了。回到拼图的比喻后缀锚点就像在拼图的右下角提前放了几块样板告诉你最终这里应该长这个样子。结果你看到右下角有了参照反而急着往右下角填拼块把左边大片空白的区域都晾在那里没填——可左边内容才是整幅图的主体右下角的答案没有左边的背景根本说不通。研究团队用数据证明了这一点在解码过程的最初15%的步骤里被揭开的位置有一个显著的集中趋势大量集中在后缀锚点附近。而此时整个推理过程才刚刚开始前面的推导内容几乎还是空白。于是在根据不完整推理过程得出的高置信度答案的驱使下模型输出了一个看起来很有把握、实则错误的结论。论文给出了一个具体案例同样是那道关于网球的题目加了后缀锚点之后模型确实写完了整个推理过程但在推理还没写完的中途靠近The answer is的位置就被过早揭开填入了一个错误的数字9而正确答案应该是10。模型说得很流畅态度很自信偏偏算错了。五、真正的解决方案让自信心随着进度解冻认清了这两个陷阱之后研究团队提出了一套名为带后缀锚点的置信度调制Suffix-Anchored Confidence Modulation简称SACM的方法。这套方法由两个部分组合而成协同工作。第一个部分是保留后缀锚点。尽管后缀锚点会带来局部过度自信的问题但它减少EOT提前出现的效果非常显著是值得保留的基础设施。研究团队还发现后缀锚点的具体内容其实并不关键——不管是完整的The answer is、还是一个简单的句号.、甚至只是一个逗号,都能起到类似的引导效果。本质上后缀锚点的作用是给模型一个这里还没结束继续写的信号而不是规定一个固定的输出模板。第二个部分才是这套方法最核心的创新**置信度调制**confidence modulation。这个机制的工作原理是在解码的早期阶段人为压低后缀锚点附近位置的置信度让这些位置即使模型自己觉得很有把握在位置选择的竞争中也排在后面随着解码的进度推进这种人为压低的幅度逐渐减少到了解码的后期锚点附近的置信度就恢复为模型的原始估计值。用一个更具体的比方来理解这个机制假设你在做一道需要长篇推导的数学题。在你刚刚动笔的时候即使你隐约感觉到答案可能是某个数字你也不应该马上写上最终答案——因为推导还没完成这种感觉并不可靠。等到你的推导写了七八成前面的步骤逻辑清晰那个答案感觉才真正有了依据这时再写上去才是合理的。置信度调制做的就是在解码早期按住锚点附近的高置信度让它等到推导过程充分展开之后再发挥作用。这套机制涉及三个可调节的参数控制压制范围空间衰减速度的κ读作kappa控制整体压制力度的β读作beta以及控制压制程度随进度恢复快慢的γ读作gamma。研究团队发现这些参数的取值在一个较宽的范围内都能保持稳定的效果不需要精细调节也可以在一个任务上调好之后直接迁移到没有验证集的其他任务使用。整套方法的实现几乎不需要改动模型本身的任何内部参数也不需要额外的辅助模块或架构改动可以直接插入到现有的置信度解码框架中使用。六、实验结果数字说明问题研究团队在多个基准测试上验证了这套方法的效果覆盖了文字推理、视觉语言推理和代码生成三大类任务使用的模型包括LLaDA 8B-Instruct、Dream 7B-Instruct和LaViDa-Instruct。在文字推理领域以LLaDA模型搭配顶级概率解码策略为例不加任何修改的基础版本在GSM8K小学数学题测试集上的正确率只有14.94%——这意味着大多数题目都因为提前截断而没有给出完整回答。加入后缀锚点之后正确率跳升至49.89%。再加上置信度调制正确率进一步提升至76.88%。这是一个从基本失效到表现合格的巨大跨越而整个过程中模型的参数一个都没有改变。换成顶级边际解码策略同样的进步轨迹也在发生基础版本14.78%加后缀锚点56.18%再加调制72.33%。在MATH-500更难的数学题集、StrategyQA常识推理和MMLU-Pro多领域知识问答上也都能看到类似的逐步改善。综合四个文字推理测试的平均分LLaDA在顶级概率解码下从21.11%提升到53.88%在顶级边际解码下从23.98%提升到51.07%。Dream模型在相同框架下也有类似幅度的提升。在视觉语言推理任务上LaViDa模型在MathVista图片数学题和ChartQA图表问答两个测试集上同样受益。以顶级概率解码为例两个测试的平均正确率从25.56%提升到40.26%ChartQA单项从24.12%跃升至45.92%涨幅尤为突出。代码生成方面LLaDA在HumanEval和MBPP两个编程测试集上顶级概率解码的平均通过率从18.14%提升到30.67%顶级边际解码的平均通过率从20.74%提升到31.76%。七、和其他两种解决方案的对比研究团队还特意将自己的方法与两种现有的替代方案进行了对比结果更清晰地展示了这套方法的优势所在。第一种替代方案是显式EOT抑制——也就是直接把EOT标记的置信度强制设为负无穷让它在任何情况下都不可能被选中。这种做法类似于直接把全文完这个词从助手的词汇表里删掉强迫他必须一直写下去。这确实能解决提前结束的问题效果也比基础版本好得多但研究团队的方法在几乎所有测试上都超过了它。而且显式EOT抑制有一个根本性的缺陷它永远无法在恰当的时候自然结束而本文的方法并不直接干预EOT标记只是通过结构性引导让模型自然地完成回答。第二种替代方案是半自回归解码semi-autoregressive decoding这种方法把完全并行的生成方式改为分块从左到右每块内部并行但块与块之间严格按顺序进行。这种做法保留了部分并行性但牺牲了完全并行带来的灵活性。最能体现两者差距的是在解码步骤受限的情况下。当总步骤数只有32步相当于每一步要同时揭开许多个位置时研究团队的方法在GSM8K上达到了57.70%的正确率而最好的半自回归配置只有36.32%。这意味着在快速生成步骤少的场景下完全并行的扩散解码本来应该有优势但之前被EOT过度自信和锚点局部过度自信拖累了而这套方法成功释放了这种并行优势。在计算效率方面研究团队测量了加入后缀锚点和置信度调制后的吞吐量每秒生成的词数和延迟每个样本的处理时间。结果显示三种配置的吞吐量都在25个词/秒左右延迟都在10.2秒/样本左右几乎没有任何额外开销。这套方法在不牺牲速度的前提下实现了大幅的质量提升。八、这套方法有没有局限性研究团队在论文中诚实地描述了这套方法的边界。其一这是一种推理阶段的修正机制它能做的是优化在哪个位置先揭马赛克这个决策但它无法弥补模型本身知识储备或推理能力的不足——如果模型就是不知道答案再好的解码策略也没用错误来自猜错了而不是太早写答案了。其二这套方法在实验中使用的都是固定位置的固定后缀锚点。虽然消融实验控制变量测试表明不同的锚点内容和不同的锚点位置都能在一定范围内保持效果但最优的锚点形式和位置可能随任务类型和输出格式有所不同研究团队认为未来可以探索自动选择锚点的方法。其三这套方法目前只在英文的推理和代码任务上进行了验证多语言任务和更多样的多模态场景还有待进一步探索。说到底这项研究解决的问题是一种特别值得关注的AI失效模式不是因为不知道而是因为**太早相信自己知道了**。扩散语言模型在生成方式上具有传统语言模型无法实现的并行灵活性但这种灵活性本身要求系统必须有更精妙的机制来管理现在是不是该写这个位置的判断。EOT过度自信和后缀锚点引发的局部过度自信都是置信度信号失真的不同表现形式。研究团队提出的这套方案核心思想是用一个极其轻量的干预——在时间维度上动态调整置信度的权重——来纠正这两类失真既不需要重新训练模型也不需要改变模型的架构只是在解码决策的环节加了一层冷静期机制。对于正在快速发展的扩散语言模型领域这提供了一个值得关注的角度提升生成质量有时候不需要更强大的模型只需要更明智的决策逻辑。有兴趣深入了解这项研究的读者可以通过arXiv编号2605.28181查阅完整论文原文包含了详细的算法描述、完整的消融实验数据以及多个可视化的解码过程分析案例。---QAQ1扩散语言模型和ChatGPT那类模型有什么不同AChatGPT类模型是从左到右一个词一个词地生成文字必须按顺序来。扩散语言模型则不同它一开始把所有位置都打码然后通过多轮处理同时揭开多个位置的内容不需要严格按顺序。这种并行处理方式速度潜力更大但也带来了先揭哪个位置的新问题。Q2后缀锚点是什么为什么单独用它还不够A后缀锚点是在回答区域快结尾处预先插入的一小段提示词比如答案是目的是告诉模型还没说完、不要提前停止。它能有效减少模型过早结束生成的情况但也会让锚点附近的位置产生异常高的置信度导致模型在推理还没写完的时候就急着填入答案结果答案往往是错的。所以光靠后缀锚点还不够还需要配合置信度调制来抑制这种过早填答的冲动。Q3置信度调制方法需要重新训练AI模型吗A完全不需要。置信度调制只在推理阶段起作用它不改变模型的任何参数只是在每一步决定揭哪个位置时对锚点附近的置信度分数进行临时调整。整套方法可以直接插入到现有解码流程中使用对计算速度几乎没有影响。

首尔大学：AI语言模型存在写作自信度与实际质量评估偏差问题

相关新闻

告别音乐会员限制：LX Music Desktop开源音乐播放器完全指南

基于SSM与Vue实现的轻量级OA办公系统（含完整数据库脚本与可运行前后端工程）

Mac Mouse Fix：让普通鼠标在macOS上拥有苹果级体验的终极指南

手把手教你用Python快速统计CASIA/Replay等活体检测数据集的视频数量与划分

Zotero SciPDF：科研工作者的智能文献助手，告别付费墙困扰

从‘算不出来’到流畅仿真：深入理解PSpice牛顿迭代法，让你的电路分析不再报错

Cadence PSpice仿真卡住了？别慌，手把手教你调这几个参数搞定‘不收敛’报错

主题增强嵌入技术：提升RAG系统语义检索精度的混合架构

Proteus 8.7 + STM32F103R6 仿真无刷电机：从原理图到UCOS-II任务调度的保姆级避坑指南

MATLAB多用户MIMO下行预编码实现：块对角化干扰抑制方案

暗黑破坏神2终极优化指南：d2dx宽屏补丁让经典游戏焕发新生

深圳弱电箱生产厂家怎么选？采购前建议了解这几点

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源