大模型推理:只看答案够吗?TRM让“思考过程”可度量!

发布时间:2026/6/25 17:44:34

大模型推理:只看答案够吗?TRM让“思考过程”可度量! 大模型推理结果对了过程就好吗大模型推理能力越来越强但答案对了思考过程就一定好吗就像同一道数学题两个学生都做对了一个步骤干净、推导紧凑、思路顺畅另一个绕了大段无关推导跳过关键步骤最后却也凑出了正确答案。只看结果两份答卷都对。但若要选一份更值得学习的解题过程显然是前者。大模型推理也面临类似问题。模型在给出最终回答前往往会生成一段动辄数千甚至上万token的reasoning trace里面有探索、反思、修正也有重复打转、跳步以及看似完整却经不起推敲的“伪证”。可绝大多数评测和奖励信号只看最终答案对不对这就悄悄抹平了“思考过程的高下”。什么样的思考过程算好一段自由形式的推理链如何被稳定评估这种评估信号又能否反过来帮助模型学会更好的推理方式TRM登场给推理过程打分针对这一问题来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRMThinking Reward Model不再只看大模型“答没答对”而是直接给它的推理过程打分把“想得好”变成可度量、可训练、可优化的能力。具体来说团队提出了一套统一框架用ME² principle刻画推理质量用DAG - based pairwise evaluation还原推理结构并在此之上训练Thinking Reward Model把“推理质量”从主观感受变成可复用的奖励信号。为何“答案对不对”不够用了过去很多大模型评测主要看最终答案是否正确。对于问答题、代码题来说这种方式很直接答对得分答错不得分。但对于推理模型而言只看答案会漏掉一个关键问题模型是怎么得到这个答案的同样答对一道题一个模型可能沿主线步步推进另一个则反复重启同一思路、做大量无效检查、甚至用错误步骤撑起正确结论。这些低质量推理不仅推高生成成本也让模型在题目条件变化时更容易出错。在强化学习训练里这一问题更明显。如果奖励只看最终答案那么所有答对的推理链都会得到同样反馈。但答案之外还需要进一步区分哪条推理链更清楚、更紧凑、更值得模型学习。这正是TRM关注的问题。TRM整体框架TRM整体框架如下(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model并将其用于Test - Time Scaling和RL。ME² principle定义好的思考过程要评估推理质量首先要说清楚“好”到底指什么。论文沿两条正交轴拆解推理质量粒度上分macro整体结构和micro单步内容目标上分efficiency高效和effectiveness有效。两两组合得到四个维度Macro - Efficiency整体结构是否高效。好的推理链会沿着必要分支推进避免在同一条思路上反复重启也不会做过多无效检查。Macro - Effectiveness整体结构是否有效。推理主线应始终围绕问题目标展开分支之间关系清楚关键论证能够前后接上。Micro - Efficiency单步表达是否简洁。每一步最好都有明确作用比如计算、验证、排除或归纳少写不影响结论的重复内容。Micro - Effectiveness单步内容是否正确。局部计算、符号使用和前后结论需要自洽不能用错误步骤支撑正确答案。这四个维度把“哪条推理更好”分解成可标注、可比较、可训练的信号构成后续整套评估和优化流程的基石。DAG - based Evaluation让推理可结构化模型推理链通常是一长串自然语言文本表面上按顺序展开但真实推理不一定直线前进。它可能先推进一条主线中途展开几个分支排除一些可能性再把有效分支合并回来。更麻烦的是长文本里有大量局部细节容易淹没真正重要的结构信号。如果不把推理结构显式拆出来评估模型就很难稳定区分它们。因此论文把自由形式的推理链抽象为有向无环图DAG。具体来说先把原始文本切成一系列原子步骤把每个步骤作为一个节点再按照语义依赖关系连边。这样一来推理链中的progression线性推进、branching分支探索和merging分支合并就能清楚呈现出来。为此论文把任意推理链抽象为有向无环图DAG并将这一过程拆成三步Step Partitioning先按段落做粗切分再统计大量轨迹中高频起始词作为更稳定的分隔符得到一致、有语义意义的步骤边界。Reasoning Structuring按时间顺序遍历每个推理步骤用大模型分配其语义父节点逐步构建边再把完全线性的相邻节点合并为超节点得到紧凑的DAG清晰呈现progression线性推进、branching分支探索和merging分支合并这样的复杂结构。Pairwise Evaluation根据ME² principle构造语义抽象再让评估模型基于这些抽象给出两条推理链的相对偏好。Macro和Micro两种粒度分别对应不同的抽象方式覆盖ME² principle四个维度。这样评估模型就不必只盯着一整段长文本而是可以沿着推理结构看主线是否清楚分支是否必要局部步骤是否简洁、正确。这样得到的判断也比直接看原文更稳定。Thinking Reward Model把推理质量变成奖励信号基于上述评估框架研究团队构建了TRM - Preference数据集。对于每个问题研究者先用多个开源推理模型生成候选推理链再通过规则验证器筛掉答案错误的轨迹只保留最终答案正确的样本。这样一来后续比较的重点就从“答案对不对”转向“答案都对时哪条推理链更好”。随后论文用DeepSeek - V3.2在ME²四个维度上对DAG进行成对评估。为减少位置偏差评估会在正反两种呈现顺序下重复进行只保留判断稳定且非平局的偏好标签。最终得到103K训练偏好对 1.5K验证偏好对构成TRM - Preference数据集。TRM以Llama - 3.1 - 8B - Instruct为初始化把语言建模头换成标量value head。在TRM - Preference上训练完成后TRM会为每条推理链输出一个标量分数分数越高越符合ME²对高质量推理的定义。在验证集上TRM取得88.6%的准确率明显优于两个代表性PRM基线。TRM的核心发现核心发现一高质量推理链得出的答案更可靠TRM评估的是推理链质量但这种信号也能反过来提高最终答案的准确率。测试时可以把TRM用在Best - of - N selection中让模型针对同一个问题生成多条候选推理链再由TRM选出质量最高的一条。实验显示随着N增大TRM选出的结果能够带来更高的最终准确率。核心发现二用作RL奖励模型答得更准在训练阶段TRM也能为强化学习提供更细粒度的奖励信号。传统RLVR通常只看答案对错而在加入TRM后模型可以在答对的基础上继续学习更清晰、更高效的推理方式。具体而言论文采用GRPO算法通过gated reward shaping把可验证奖励与TRM给出的思考奖励组合 “门控”的关键在于只有答案正确时TRM才参与reward shaping错误轨迹的reward始终为0避免模型从错误轨迹里学到坏习惯。实验结果显示这种思路在多个模型和任务上都带来了性能提升。RL训练结果如下。TRM作为辅助奖励在多个模型和STEM/Math任务上带来更稳定的性能提升。核心发现三不止答案更准推理过程也更优不过性能提升并不等于推理过程一定变好。为进一步验证这一点论文用DeepSeek - V3.2按照ME² principle对不同训练策略生成的推理链进行成对比较。结果显示在三个基座模型上TRM训练后的策略相较于多种基线策略都取得了更高胜率。这说明TRM让模型生成的推理过程更接近清晰、高效、可靠的推理。TRM的意义与未来展望随着大模型走向复杂数学、科学推理、智能体规划和长期任务执行推理过程的重要性会继续上升。未来的模型既要答对也要更会组织思路、减少无效分支、抓住关键步骤。TRM的意义就在于它让想得好从一种主观感受变成可以度量、可以训练、可以优化的能力。那么TRM在未来大模型的发展中还会带来哪些惊喜呢

相关新闻