2025_NIPS_Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning

发布时间:2026/5/20 12:21:06

2025_NIPS_Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning 文章核心总结与翻译一、主要内容本文针对离线强化学习(Offline RL)中长视野任务的方差累积、计算复杂度高、对离线数据集过度依赖及泛化能力不足等问题,提出了一种基于结构信息的分层扩散框架(SIHD)。该框架核心围绕“自适应多尺度分层构建”“结构信息引导的条件扩散”“结构熵正则化探索”三大模块展开:问题背景:现有分层扩散方法多采用固定的两层结构和单一时间尺度,难以适配多样化任务;离线数据集中的分布偏移易导致外推误差,稀疏奖励场景下长视野决策性能受限。核心设计:从离线轨迹中提取结构信息,通过优化结构熵构建树状状态社区,实现轨迹的自适应多尺度分层分割;量化每个状态社区的结构信息增益,将其作为条件信号融入对应扩散层,替代局部子轨迹的奖励预测;引入结构熵正则化项,鼓励探索离线数据中未充分覆盖的状态,同时限制分布偏移导致的外推误差。实验验证:在D4RL基准测试(含Gym-MuJoCo、Maze2D、AntMaze等任务)中,SIHD在不同质量数据集(Medium-Expert、Medium、Medium-Replay)和长视野稀疏奖励场景下,决策性能和泛化能力均显著优于现有基线方法,最高性能提升达12.6%。二、创新点提出自适应多尺度分层扩散结构:基于状态特

相关新闻