
TL;DR用强化学习Reinforcement Learning, RL训练智能体已经成为提升推理的主流路线但两个核心争议始终没有消散RL 到底是在教出新能力还是只在放大基座模型已有的能力多轮工具调用这种长链任务奖励该怎么给本文结合《Demystifying Reinforcement Learning in Agentic Reasoning》与《Does RL Really Incentivize Reasoning Capacity Beyond the Base Model?》两篇研究拆解 Agentic RL 的真实边界与一套可落地的配方。1. 争议的起点RL 是创造还是放大DeepSeek-R1 之后用可验证奖励做 RL 提升推理几乎成了行业默认动作。但《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》arXiv:2504.13837给出了一个冷静的观察在 passk 这种采样 k 次只要有一次对就算对的指标下经过 RLVRReinforcement Learning with Verifiable Rewards训练的模型当 k 取得足够大时其可达到的解题集合并没有真正超出基座模型的采样覆盖范围。换句话说RL 更像是把基座模型本来偶尔能蒙对的那条推理路径概率质量重新分配、让它更稳定地被采到而不是凭空创造一条基座完全够不到的新路径。这对工程实践的含义很直接基座模型的能力上限基本决定了 RL 的天花板。如果某类推理基座一次都采不出正确解指望 RL 把它练出来通常是徒劳——更该做的是换更强基座或补监督微调SFT数据。2. 从单轮到多轮Agentic RL 难在哪把上面的结论搬到智能体场景难度陡增。单轮做题奖励是题目对错信号干净。但一个真实 Agent 要做的是多轮、带工具调用的决策链读问题 → 调搜索 → 看返回 → 再调计算器 → 综合作答。这天然是一个马尔可夫决策过程Markov Decision Process, MDP而它带来三个老大难问题信用分配credit assignment。最终答对了功劳到底归第 2 步那次正确的检索还是第 4 步的综合只在最后给一个稀疏奖励模型很难知道该强化哪一步。长链方差。链条越长轨迹之间的回报方差越大策略梯度估计越不稳训练容易崩溃。工具噪声。工具返回本身可能出错或为空模型需要学会区分是我决策错了还是工具这次没给力否则会把环境噪声错误地内化成自己的策略。3. 一套可落地的配方《Demystifying Reinforcement Learning in Agentic Reasoning》arXiv:2510.11701系统地梳理了让 Agentic RL 真正跑通的几个关键变量可以提炼成下面这套配方数据先于算法。真实的端到端 agentic 轨迹而非合成的、过于干净的轨迹做 SFT 冷启动再接 RL效果显著优于直接上 RL。一个高质量的 agentic SFT 数据集 高质量 RL 数据集的组合在 AIME2024/2025、GPQA-Diamond、LiveCodeBench-v6 等多个硬基准上都被验证有效。本质原因回到第 1 节RL 放大的是基座已有路径那就先用 SFT 把正确的工具使用路径注入基座的采样分布里RL 才有东西可放大。回合级奖励turn-level reward而非只给终局奖励。与其只在轨迹末尾给一个稀疏信号不如为每一回合的工具调用设计中间奖励——比如这次检索是否返回了有用证据。这直接缓解了信用分配难题多轮推理的强化研究如 Turn-Level Reward Design 一类工作反复印证了它对稳定性的帮助。把编排也当成可学习对象。更前沿的方向如 MAS-Orchestra 一类训练时框架把多智能体编排本身形式化成 function-calling 的 RL 问题让系统学会何时该派哪个子智能体、何时该停并配套受控评测基准如 MASBENCH来衡量。这意味着 RL 的作用域从单个模型的推理扩展到了整个智能体系统的调度。4. 这意味着什么把三点串起来RL 不是魔法它的上限被基座框死它真正擅长的是把已经存在但不稳定的好行为训得稳定可复现。所以正确的工程顺序是——先选够强的基座再用真实轨迹 SFT 把目标行为塞进分布最后用回合级奖励的 RL 去压实它并在多智能体场景把编排也纳入优化。指望单靠一招 RL 拔高推理大概率会撞上天花板。参考资料Demystifying Reinforcement Learning in Agentic Reasoning, arXiv:2510.11701: https://arxiv.org/pdf/2510.11701Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, arXiv:2504.13837: https://arxiv.org/pdf/2504.13837