
文章总结与翻译一、主要内容本文聚焦于平均奖励准则下的逆强化学习(IRL)问题,核心目标是在仅获取专家智能体的状态-动作样本时,恢复未知的策略和奖励函数。现有IRL方法多依赖折扣奖励环境且需已知折扣因子,本文通过构建平均奖励框架及高效学习算法,缓解了这一限制。核心研究内容问题背景:传统IRL存在依赖折扣因子、收敛性分析不足、仅适用于有限状态-动作空间等缺陷,而平均奖励马尔可夫决策过程(AMDP)更贴合长期决策场景,但缺乏成熟的IRL解决方案。算法设计:提出随机策略镜像下降(SPMD)算法,用于求解AMDP问题,支持一般状态和动作空间及通用函数逼近,梯度计算复杂度为O(1/ε)O(1/\varepsilon)O(