【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO?

发布时间:2026/6/26 2:14:39

【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO? 今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑结合我们前段时间解析过的 Agentic-RL 算法总结 与 OPD 算法总结。

相关新闻