
一、文章主要内容总结该研究聚焦于强化学习(RL)策略下闭环系统的稳定性验证问题,核心是搭建经典控制理论与现代基于学习的方法之间的桥梁。背景与问题:RL方法虽能优化系统长期性能,但缺乏稳定性保证;传统李雅普诺夫(Lyapunov)方法要求函数逐步严格递减,难以适用于学习到的策略,且RL价值函数本身无法直接满足李雅普诺夫稳定性条件。核心思路:从线性二次调节器(LQR)问题入手,发现通过在RL价值函数中加入与系统动力学和阶段成本相关的残差项,可构建李雅普诺夫函数候选;放松传统李雅普诺夫的逐步递减要求,提出广义李雅普诺夫条件,允许函数在有限时间步内暂时上升,仅需满足多步加权平均递减。方法拓展与验证:线性系统场景:通过线性矩阵不等式(LMI)验证广义李雅普诺夫函数的有效性,扩大了可稳定的折扣因子范围;非线性系统场景:将RL价值函数与神经网络残差项结合构建广义李雅普诺夫函数,联合学习状态依赖的多步权重,在Gymnasium和DeepMind Control基准测试中成功验证了PPO、SAC等RL策略的稳定性;联合优化:提出多步李雅普诺夫损失函数,联合训练神经控制器与稳定性证书,相比传统方法获得了更大的认证吸引域内近似。开源实现:提供了代码仓库(https://github