
一句话结论传统 on-policy RL 的问题,不只是“怎么根据奖励更新模型”,更关键的是“模型能不能先采样到值得学习的轨迹”。Pedagogical RL 的核心贡献,就是利用训练时可见的特权信息,让模型先学会生成既正确、又对当前学生模型来说可理解、可模仿的轨迹,再把这些轨迹吸收到学生模型里。对论文Pedagogical RL: Teaching Models to Teach Themselves from Privileged Information的技术解读作者:Souradip Chakraborty, Noah Ziems, Furong Huang, Meng Jiang, Amrit Singh Bedi, Omar Khattab作者给出的结论很直接:纯 on-policy RL 是“盲采样”Pedagogical RL 是“教模型变得更容易撞上好轨迹”在稀疏奖励、推理难、pass@1 低的任务里,这种范式明显更高效换句话说,Pedagogical RL 试图解决的不是“奖励函数不够好”,而是“RL 一直抽不到好样本”这个更底层的瓶颈。1. 问题从哪里来:RL 明明有答案,却还是在盲搜这篇论文讨论的是一类verifiable RL问题。给定输入