强化学习-应用小记 发布时间:2026/6/13 5:23:07 强化学习基础参考文档【知乎】大模型强化学习1- 万字长文解读PPO 的起源、直觉与代码实现RL基本知识主要组件一个智能体agent在某个环境Environment中采取动作Action这些动作由一个策略policy预测