ICLR 2026 | 800条数据治愈“过度思考”,大模型CoT减半还更准

发布时间:2026/5/21 18:45:41

ICLR 2026 | 800条数据治愈“过度思考”,大模型CoT减半还更准 你有没有遇到过问大模型一个简单数学题它却洋洋洒洒写了 5000 多字才出答案这种“过度思考”不仅烧钱费时还容易把对的改成错的。现在中科大研究团队提出了 LCPOLength Controlled Preference Optimization仅需 800 条数据、50 步训练就让模型学会“言简意赅”——推理长度砍半准确率甚至不降反升这项工作已被学术顶会 ICLR 2026 接收代码已开源感兴趣的小伙伴可以一探究竟论文标题Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization论文链接https://arxiv.org/abs/2508.10164源码链接https://github.com/SleepyWithoutCoffee/Small_Scale大模型越来越聪明也越来越“啰嗦”以 DeepSeek-R1、QwQ-32B 为代表的大型推理模型LRMs靠长思维链Long CoT在数学、编程等复杂任务上大放异彩。但它们有个通病明明很简单的问题也要长篇大论写一堆推理过程输出越长计算成本越高推理速度越慢更糟的是面对简单的问题“想太多”有时反而容易出错——这就是所谓的过度思考overthinking。现有的解决方案要么是推理时强行截断效果不稳定还伤性能要么是大规模在线强化学习Online RL。后者训练系统复杂动辄需要几十万条训练数据、上千 GPU 小时的算力投入。于是研究团队提出了两个核心问题第一在模型已有的生成空间里到底存不存在既短又对的推理路径第二怎么用极少的训练和数据把模型“推”到那条更高效的路径上关键发现模型本就有“简洁模式”只是没被激活团队先用 DeepSeek-R1-Distill-Qwen-7B 做了个实验对每个问题生成 16 个回答按长度排序观察准确率变化。结果非常有意思短回答长度排名靠前的那些准确率几乎不降而长回答排名靠后的准确率反而暴跌。〓 长度分组实验这说明什么模型天生就会简洁推理只不过它的“默认出厂设置”偏啰嗦。 我们不需要教它新知识只需要用合适的方法把它推向那个更高效的生成分布即可。方法揭秘三步走四两拨千斤基于上述洞察团队设计了一套极致轻量的训练流程。数据筛选只学“学霸的简洁版答案”他们用模型自己的答题正确率作为难度标签把数学问题分成三档Easy全对模型已完全掌握没必要长篇大论Medium部分对有点难度但还能搞定Difficult全错真不会需要充分探索。训练时只用 Easy 部分并且把最短的正确回答作为“正面榜样”最长的回答作为“反面教材”。这样一来数据里全是“本来就会做的题应该短且对”的强烈偏好信号总共只用到 2.2 万条原始数据实际用于训练的样本仅 800 条。算法创新LCPO平衡“隐式 NLL 损失干扰”团队深入分析了现有偏好优化方法DPO、SimPO、ORPO 等的目标函数发现一个隐藏问题负对数似然损失NLL Loss会干扰长度偏好学习。在偏好学习使用的 sigmoid 函数中“藏着” NLL Loss而这部分 Loss 会影响 sigmoid 的收敛。如果模型要完全学会一种长度为 1000 的解答需满足实践中可以取而模型生成每个词汇的概率一般为 0.050.5很难满足这一条件。 简单来说NLL Loss 会让模型过度拟合“正面回答”的表面形式反而削弱了“短 vs 长”的对比学习效果学不好高效推理的思维。为此他们提出了 LCPO通过相同的数学形式直接平衡 NLL 的影响让模型纯粹聚焦于长度偏好。而且LCPO 无需任何超参数调优开箱即用极致轻量训练成本降低两个数量级对比一下同类方法的资源需求该方法数据需求降低 1~2 个数量级总训练成本仅约 10.4 A100 小时而同类在线 RL 方法动辄上千小时。效果明显长度砍半性能基本保持在 DeepSeek-R1-Distill-Qwen-1.5B/7B 上的实验结果如下〓 主要实验结果更惊喜的是即使仅在数学数据上训练在训练数据以外的任务如 MMLU、GPQA-Diamond、WinoGrande上模型依然保持长度缩减超 55% 的同时准确率稳中有升——说明它学到的是通用的“高效思考习惯”而非死记硬背。〓 OOD 实验结果来看一个具体的例子一道使用换底公式简化计算的简单数学题。在训练前模型会在各个环节深入思考在已经得到答案时依然陷入深深的“自我怀疑”各种反复验算高达 8 次才给出最终回答而在掌握“高效推理”的思维之后仅做一次验算既可以验证答案又不至于过度谨慎token 损耗直降 79.37%〓 case启示与展望这项工作的核心价值在于揭示了一个深刻洞察大模型的生成空间中本就蕴藏着高效推理路径我们只需用精巧的信号把这种思维“引导”出来而不必大规模“改造”。这为低成本、高效率的大模型行为对齐开辟了新思路模型面对简单问题自动“快速思考”不再因输出过长而等待API 调用成本大幅下降agent 使用更轻松减少“想多了”的窘境有助于降低因“过度思考”而引入的失误。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关新闻