自回归Transformer策略:Action Tokenization与离散化动作编码技术综述

发布时间:2026/5/20 7:47:08

自回归Transformer策略:Action Tokenization与离散化动作编码技术综述 目录第一部分:原理详解与代码实现1. 背景与范式迁移1.1 从Diffusion到Autoregressive的范式转换1.1.1 动作生成范式的演进轨迹1.1.2 统一表示空间的构建2. Action Tokenization 基础2.1 朴素离散化方法2.1.1 均匀分箱编码2.1.2 独立维度离散化3.1.1 编码器-量化器-解码器架构3.1.2 状态条件化的编码器设计3.1.2.1 Codebook的随机初始化与EMA更新3.2 离散潜空间的优化挑战3.2.1 Codebook Collapse现象的数学机理3.2.2 Commitment Loss与Codebook Loss的权衡3.3 残差向量量化 (Residual VQ)3.3.1 多级量化层级结构4. 自回归Transformer策略架构4.1 RT-2架构实现4.1.1 Vision-Language预训练骨干4.1.2 动作Token的自回归解码4.2 RT-H层次化架构4.2.1 Language Motion抽象层4.2.2 双查询机制的实现4.3 脚本4:RT-2与RT-H架构实现5. 高效编码与压缩方法5.1 频域编码5.1.1 离散余弦变换压缩5.1.2 变长Token序列建模5.2 样条参数化5.2.1 B-Spline控制点编码5.2.2 Flow Matching解码5.3 脚本5:频域与样条编码实现6. 训练与推理优化6.1 混合预训练策略6.1.1 互联网规模VL数据与机器人数据混合6.1.2 参数高效微调6.2 推理加速6.2.1 Keyframe采样与动作子序列生成6.2.2 KV-Cache优化第一部分:原理详解与代码实现1. 背景与范式迁移1.1 从Diffusion到Autoregressive的范式转换

相关新闻