基于 PPO 策略的决策/规划运算法

发布时间:2026/6/15 14:59:03

基于 PPO 策略的决策/规划运算法 基于 PPO 策略的强化学习运动轨迹规划摘要本文介绍一种基于 Frenet 坐标系采样规划器与强化学习相结合的混合轨迹规划方法。该方法并不让强化学习智能体直接输出转向角或加速度而是让智能体动态调节解析轨迹规划器中的成本权重从而在保留传统规划器稳定性、可解释性与安全约束能力的同时引入强化学习对复杂交通场景的自适应决策能力。实验结果表明该方法在多种场景下可有效降低碰撞、抑制风险并提升到达目标的成功率。0 阅读指引与要点文档目标本文档用于说明一种PPO Frenet 解析轨迹规划器的混合运动规划方案重点解释其规划器结构、PPO 优化目标、观测空间、动作空间、奖励设计以及实验表现。核心目标通过强化学习调节轨迹成本权重提升传统采样规划器在复杂动态场景中的适应性、风险控制能力与任务成功率。关键组件解析轨迹规划器在 Frenet 坐标系下采样候选轨迹并进行可行性、成本和碰撞检查。PPO / Recurrent PPO利用裁剪策略更新实现稳定训练并结合 LSTM 处理时序信息。增强观测空间不仅包含自车、目标和周围车辆信息还包含轨迹集合统计特征与成本分布特征。动作空间动作并非直接控制车辆而是调节各成本项权重。混合奖励系统同时考虑成功到达、碰撞惩罚、无解惩罚、风险抑制、速度保持与参考路径跟踪。推荐阅读路径第 1 节引言先理解为什么纯解析方法和纯强化学习方法都存在局限。第 3 节方法重点阅读理解 Frenet 规划器与 PPO 如何协同工作。第 4 节结果与分析重点关注风险控制、驾驶行为适应性和成功率提升。第 5-6 节讨论与结论把握该方法的价值、边界与未来扩展空间。实践提示PPO 在这里学习的是“规划偏好”而不是“直接控制”这是本方法最关键的设计思想。奖励函数设计直接决定策略是否更保守、更平顺或更激进。成本权重上下界与更新范围会显著影响训练稳定性与在线行为波动。如果扩展到其他算法GRPO、A3C、SAC、TRPO等也可以复用这类“强化学习调规划器”的总体框架。与项目代码的对应训练入口→train.py执行入口→execute.py环境配置→frenet_rl/gym_environment/configs.yaml环境主逻辑→frenet_rl/gym_environment/environment/agent_env.py观测构造→frenet_rl/gym_environment/observation/奖励构造→frenet_rl/gym_environment/reward/PPO 超参数→frenet_rl/hyperparams/ppo2.yml一、引言自动驾驶在真实道路环境中的落地面临大量挑战尤其体现在复杂城市路口、不可预测交通参与者行为以及新环境下的在线决策。这些问题要求运动规划算法同时具备高安全性、强泛化性与实时适应能力。传统的解析规划方法在稳定性、可解释性和安全约束集成方面具有明显优势但其性能往往依赖大量人工调参。在不同场景中即便是微小的参数变化也可能显著改变车辆行为因此调参过程通常低效、昂贵且难以扩展。另一方面强化学习在复杂决策任务中展现出很强潜力但在自动驾驶轨迹规划场景下纯强化学习方法常常面临训练不稳定、样本效率不足、场景泛化能力有限以及可解释性较弱的问题。尤其在复杂交互场景中纯 RL 模型可能需要很长训练时间且部署前还需要额外的安全验证。因此本文提出一种两阶段混合规划思路由强化学习智能体为解析轨迹规划器提供动态信息解析规划器仍负责候选轨迹生成、约束检查和最终轨迹筛选。该方法试图结合两类方法的优势解析规划器提供稳定、可控、可解释的轨迹生成框架。强化学习智能体提供场景相关、时变的参数调整能力。本文的主要贡献可概括为以下两点提出一种混合运动规划方法在 Frenet 坐标系下融合环境信息、预测信息与强化学习权重调节机制以提升轨迹规划质量。对方法进行系统分析从风险、安全性、成功率、行为适应性与执行时间等角度评估该方法在多场景中的表现。二、相关调研自动驾驶运动规划长期以来一直是研究热点现有方法大致可以分为以下几类基于图搜索的方法通过节点和边构成的结构化图寻找可行路径。基于采样的方法生成大量候选轨迹并从中筛选最优轨迹。基于优化的方法在各种约束和目标下求解最优轨迹。基于学习的方法利用机器学习或强化学习直接学习决策或控制策略。现有许多学习方法直接学习转向、速度或加速度控制通常针对某些特定场景进行训练例如高速公路变道或简单交互决策。这类方法虽然在局部任务上取得一定进展但在更复杂场景中的成功率、泛化能力和安全可控性往往仍不足。也有研究尝试将人类反馈、迭代学习或逆强化学习引入运动规划用于学习更自然或更安全的驾驶行为。但这些方法往往仍存在以下问题对复杂公共道路环境覆盖不足对其他交通参与者预测不确定性的考虑有限缺乏与成熟解析规划器的深度融合在高维状态空间中的收敛速度较慢因此当前仍缺少一种能够同时满足以下目标的混合方法高成功率较强实时性良好可解释性便于引入安全机制能够适应复杂动态交互场景本文提出的 PPO Frenet 混合规划器正是围绕这一空缺展开。三、方法本节介绍基于采样的 Frenet 轨迹规划器与PPO 强化学习过程如何结合形成混合轨迹规划系统。A. 基于采样的运动规划器本文使用的解析轨迹规划器基于 Frenet 坐标系中的采样式轨迹规划思想。在每个时间步规划器大致经历以下几个阶段车辆状态更新结合自车状态、环境信息与预测结果更新当前时刻在 Frenet 坐标系中的状态表达。轨迹采样基于时间、速度与横向偏移等采样指标生成多组候选轨迹方案。轨迹运动学检查利用车辆单轨模型及车辆参数对候选轨迹进行运动学可行性检查。轨迹成本计算对每条候选轨迹计算多种成本项例如碰撞概率成本横向 / 纵向急动度成本到参考路径的距离成本速度偏差成本轨迹碰撞检查与筛选在按成本排序后对优先级更高的轨迹做碰撞验证选择第一条无碰撞且可行的最优轨迹更新车辆状态。该轨迹规划过程具有两个重要特点优点 1天然具备较强的可解释性与安全约束整合能力。优点 2可以把强化学习输出映射为成本权重调节量而无需替换底层规划器结构。规划器每次生成的轨迹通常覆盖约3 s规划时域仿真步长约为0.1 s。B. 强化学习过程在该系统中强化学习模块的任务并不是直接生成控制命令而是优化解析规划器的轨迹选择偏好。具体来说智能体通过观察当前场景及候选轨迹统计信息动态调节规划器中不同成本项的权重。实现层面使用了gymnasium、stable-baselines3及其循环策略扩展训练算法采用近端策略优化PPO并结合LSTM处理时序依赖。PPO 的核心目标函数如下L C L I P ( θ ) E ^ t [ min ⁡ ( r t ( θ ) A ^ t , clip ⁡ ( r t ( θ ) , 1 − ϵ , 1 ϵ ) A ^ t ) ] L^{CLIP}(\theta) \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta)\hat{A}_t,\; \operatorname{clip}(r_t(\theta), 1-\epsilon, 1\epsilon)\hat{A}_t \right) \right]LCLIP(θ)E^t​[min(rt​(θ)A^t​,clip(rt​(θ),1−ϵ,1ϵ)A^t​)]公式说明θ \thetaθ当前策略参数r t ( θ ) r_t(\theta)rt​(θ)新旧策略在动作概率上的比值A ^ t \hat{A}_tA^t​时间步t tt的优势估计ϵ \epsilonϵ裁剪系数用于限制过大的策略更新核心作用通过裁剪机制抑制过大的策略变化从而兼顾训练稳定性与策略改进效率。本文进一步使用Recurrent PPO / MlpLstmPolicy其核心思想是LSTM 状态更新在每个时间步结合当前输入、上一时刻隐藏状态和单元状态形成新的时序特征表示。策略与价值联合估计利用更新后的隐藏状态同时估计动作分布与状态价值。这一设计特别适合部分可观测环境动态交互场景需要历史信息辅助判断风险趋势的情形C. 观测空间设计观测空间由多类信息共同构成不仅包含传统的车辆与目标状态还包含解析规划器生成的候选轨迹统计特征。其主要类别如下类别主要观测内容自车信息速度、加速度、急动度、转向、航向、偏航、到参考路径的距离目标信息到目标距离、剩余时间、目标达成状态、超时状态、目标速度周围环境相邻车道、车道方向、障碍物信息轨迹集合信息可行轨迹比例、轨迹有效性、自车风险、第三方风险成本信息最优轨迹成本、所有轨迹成本的均值与方差、碰撞概率成本关键特点与直接控制型 RL 系统不同这里强化学习智能体能看到由解析规划器提前计算出的轨迹束信息。这让策略不只基于单一状态做反应而是能够根据候选轨迹整体分布调整规划偏好。D. 动作空间设计本文中智能体动作的物理意义是调整轨迹规划器中各个成本项的权重。对每个成本项i ii在时间步t tt的动作可以表述为ω i min ⁡ ≤ ω i p r e v ω i a c t i o n ≤ ω i max ⁡ \omega_i^{\min} \le \omega_i^{prev} \omega_i^{action} \le \omega_i^{\max}ωimin​≤ωiprev​ωiaction​≤ωimax​其中ω i p r e v \omega_i^{prev}ωiprev​上一时刻该成本项的权重ω i a c t i o n \omega_i^{action}ωiaction​当前动作带来的增量ω i min ⁡ , ω i max ⁡ \omega_i^{\min}, \omega_i^{\max}ωimin​,ωimax​该成本项允许的最小与最大边界关键意义强化学习不是替代规划器而是在线调参动作空间可保持较低维训练更稳定规划器原有的可行性检查、碰撞检查和约束体系仍然有效每次执行后相关成本项会回到默认值或受配置规则约束以避免权重失控累积。E. 奖励设计奖励设计直接决定智能体会把车辆行为推向何种风格因此是整个系统中最关键的部分之一。本文采用终止奖励 过程奖励构成的混合奖励系统。终止类奖励 / 惩罚主要反映任务结果到达目标提前到达目标延迟到达目标碰撞惩罚无可行解惩罚场景超时惩罚过程类奖励 / 惩罚用于塑造驾驶行为到参考路径的距离与目标速度的差异到目标的纵向推进量当前动作与默认成本设置的差异自车风险障碍物风险该设计试图同时实现以下目标尽量避免碰撞减少风险暴露保持合理车速提升舒适性与轨迹平顺性保证朝目标持续推进实践上需要注意如果对风险抑制奖励设置过强车辆可能学会“过度保守”甚至在部分场景中倾向于停车。因此奖励设计必须在安全性与通行效率之间取得平衡。四、结果与分析本节从训练环境、风险控制、行为适应性、场景成功率与执行时间等角度对混合规划器进行分析并与默认解析规划器进行对比。A. 环境与训练设置训练主要使用丁字路口场景因为这类场景包含复杂且关键的车辆交互。数据集划分如下训练集75%验证集15%测试集10%文中给出的 PPO 关键超参数包括学习率0.0003裁剪系数0.1折扣因子γ \gammaγ0.99GAE 参数λ \lambdaλ0.97批量大小2352训练轮数5熵系数0.01在文中实验设置下总训练规模约为700 万时间步训练在200 万到 300 万步后开始收敛完整训练时长约24 小时。B. 风险感知轨迹规划本文特别关注风险控制能力。轨迹风险定义为R ( T ) max ⁡ ( p ( T ) H ( T ) ) R(\mathcal{T}) \max \left( p(\mathcal{T}) H(\mathcal{T}) \right)R(T)max(p(T)H(T))其中p ( T ) p(\mathcal{T})p(T)轨迹对应的碰撞概率H ( T ) H(\mathcal{T})H(T)轨迹对应的潜在危害关键结论与默认规划器相比混合规划器在多个场景中的自车风险显著降低第三方道路参与者风险也同步下降智能体能够在高风险情况真正发生前依据环境与轨迹集合信息提前识别风险并主动减速这说明强化学习在这里学到的并不仅仅是“避撞结果”而是更接近一种风险前瞻性调节能力。C. 智能体驾驶行为的适应性与固定参数的默认规划器相比混合规划器的一个突出优势是可以在运行时动态改变驾驶行为。在对向来车、左转冲突等场景中混合规划器通常表现为更早制动更贴近参考路径对碰撞概率权重进行连续上调主动降低进入高风险区域时的速度而默认规划器则可能由于固定参数设置在某些边界场景下表现出接近速度过快对风险响应过晚需要手动重新调参才能避免碰撞核心结论混合方法能够在不手工改参数的前提下通过学习到的权重调节策略在复杂场景中表现出更合适的驾驶风格。D. 场景性能评估在更大规模场景评估中混合规划器与默认规划器进行了对比。主要观察包括默认规划器在部分参数设置下虽然成功率较高但仍然存在碰撞碰撞概率成本设置过低时车辆会表现得过于激进碰撞概率成本设置过高时车辆又可能表现得过于保守混合规划器则能够通过学习形成更灵活的动态权衡关键结论在未见过的测试场景中混合规划器依然能保持较高稳定性并显著降低碰撞发生。此外从驾驶行为统计看混合规划器通常表现出更低的平均速度更强的转弯适应性更灵活的轨迹偏移与风险调节能力这表明策略学到的是一种场景相关的、可变的规划偏好而非单纯固定的保守策略。E. 执行时间评估执行时间评估表明该方法在引入强化学习后仍保留较强的实时潜力。文中给出的平均结果大致如下RL 模型预测时间约0.44 ms轨迹束采样与成本计算时间约15.8 ms整体模型单步执行时间约46 ms结论强化学习部分本身的推理开销很低系统总耗时仍主要集中在解析规划器的轨迹生成、评估和碰撞检查流程上因此该方法具备较好的工程可落地性。五、讨论实验结果说明这种解析规划器 强化学习权重调节的混合方法是有效的。与纯强化学习方法相比它具有以下优势训练更快成功率更高更容易保持可解释性更容易集成安全机制可利用已有解析规划器的工程基础与纯解析方法相比它又具备以下优势能够在线适应场景变化可弥补固定参数设置在边界场景下的不足能对预测误差或风险变化作出更柔性的调节当然该方法也存在一些局限如果底层规划器结构变化较大智能体通常需要重新训练或至少部分重训练奖励设计和场景选择仍然需要仔细打磨动作上下界、奖励尺度和成本项设计不合理时训练可能出现过保守或波动过大的问题总体来看这种混合架构展示了非常有价值的工程方向不是让强化学习替代规划器而是让强化学习增强规划器。六、结论与展望本文提出了一种面向自动驾驶轨迹规划的混合运动规划方法通过把强化学习智能体接入 Frenet 解析规划器实现对成本权重的动态调节从而提升系统在复杂动态场景中的泛化能力、成功率与风险控制水平。实验表明该方法在保持较好实时性的同时能够降低碰撞概率降低自车与第三方风险提升复杂路口场景中的轨迹选择质量减少人工手动调参负担未来工作可围绕以下方向展开从调成本权重扩展到调采样参数让强化学习不只影响成本函数也影响采样密度、采样范围和预测偏好。扩展到更多强化学习算法当前采用的是PPO / Recurrent PPO未来可进一步探索GRPO、A3C、SAC、TRPO等算法在该混合框架中的适用性。引入更丰富的环境表示例如图结构环境表示、更加细致的语义地图信息与不确定性建模。提升真实部署适用性深入研究该框架在真实车辆系统中的鲁棒性、执行效率与安全验证方式。PPO一句话总结本文最重要的价值不只是“把 PPO 用到了轨迹规划里”而是提出了一种可扩展到 PPO、GRPO 等多类强化学习算法的混合轨迹规划范式。

相关新闻