面向长上下文自动驾驶的规划对齐Token压缩

发布时间:2026/6/11 14:03:03

面向长上下文自动驾驶的规划对齐Token压缩 26年6月来自Nvidia和香港大学的论文“Planning-aligned Token Compression for Long-Context Autonomous Driving”。一体视觉-动作模型Monolithic vision-action models代表自动驾驶领域的一种新兴范式。然而当该架构在处理复杂交互场景并编码长时序上下文信息时生成的Token序列往往会迅速超出实时计算的预算限制。尽管线性Transformer和外部记忆机制等方法试图降低上下文处理的开销但Token压缩技术因无需修改骨干网络backbone与该架构的兼容性最佳。现有的压缩方法多采用时间衰减等基于规则的启发式策略且与规划过程相脱节这可能导致丢失对决策至关重要的信息。为此提出COMPACT-VA这是一个基于条件VQ-VAE构建的、与规划过程相协同的工作记忆框架旨在将长时序上下文压缩为有限规模的表征。该压缩过程同时依赖于历史轨迹信息和学习的规划意图在训练阶段后验编码器从未来轨迹中提取该意图而先验编码器则学习根据压缩后的观测信息对其进行预测。压缩后的记忆与预测的潜表征latent拼接后输入策略网络进行端到端优化从而在保留关键决策信息的前提下进行规划。在高动态、高信息量的场景中进行评估——这些场景中历史上下文对于行为决策如停车、让行或通行的正确性至关重要——并据此设计相应的行为评估指标。在Token预算相当的情况下本文方法将成功率提升6%以上达到68.3%且各项指标均有稳健提升。消融实验验证“规划协同”机制的有效性。闭环评估结果显示与未压缩处理相比COMPACT-VA在保持常规驾驶性能的同时实现3.3倍的推理加速和2.7倍的内存占用降低。1 统一视觉-动作模型主干网络方法基于 Alpamayo [1] 的统一视觉-动作VA策略变体构建该变体包含三个核心组件一个将多相机观测数据处理为视觉 Token 的视觉编码器一个在无文本指令情况下进行时序推理的 Transformer 主干网络以及一个生成车辆未来运动轨迹的轨迹解码器。来自当前及过去 T 个时间步的多相机图像通过预训练的视觉编码器例如 DINOv2 [32]被编码为视觉 Token。每张图像生成 N_img 个 Token。若每个时间步使用 N_cam 个相机进行多视角观测则原始视觉 Token 的数量会随之增加。这些视觉 Token 与时间位置嵌入及相机特定嵌入一起与编码后的历史轨迹信息进行拼接随后输入到因果 Transformer 主干网络中。对于历史轨迹采用经 MLP 压缩的正弦位置嵌入生成一个代表自车历史轨迹的连续 Token。对于未来轨迹采用基于 FSQ 的 Tokenizer [33]通过有限标量量化将未来航点压缩为离散 Token从而在保持重构质量的同时实现自回归生成参考 Alpamayo [1]。尽管这种统一架构省去显式的中间模块但序列长度会随上下文长度线性增长。在需要长时序上下文的复杂驾驶场景中Token 数量会大幅增加轻易超出典型视觉-语言模型VLM的上下文窗口限制。若无有效的压缩手段Transformer 注意机制带来的 O(N²) 二次计算开销将导致部署变得难以实现。2 学习分层级时间上下文缓冲为了在保留时间信息的同时管理 Token 序列的增长通过基于查询query-based的学习聚合方式压缩原始观测数据并将其组织成层级化存储库。COMPACT-VA 的整体架构如图 2 所示。层级缓冲结构。跨越 T 个时间步的观测历史被组织为 K 个压缩层 {L_1, L_2, …, L_K}每一层采用不同的压缩比以平衡 Token 效率与信息保留效果。每一层 L_k 包含 n_k 个连续帧。压缩过程以级联的层级方式进行首先将帧编码为每相机 N_img 个 Token随后逐层进行压缩层 L_k 针对每相机每帧输出 ⌊N_img / r_k⌋ 个 Token其中 rk 为累积压缩比即从第 1 层到第 k 层的压缩因子相对于原始 N_img 的乘积。采用一种基于“时间衰减”启发式策略的多层层级结构最近的一层保留完整的 Token 分辨率不进行压缩中间层采用适度压缩而较早的层则采用高强度压缩。各层的时间跨度设置遵循以下比例近期历史占据较短的时间窗口但保持较高的 Token 密度而较早的历史则覆盖较长的时间跨度并采用稀疏表示。这种设计在实现大幅压缩的同时能够针对行为线索最关键的区域保留细粒度信息。基于 Q-former 的学习压缩。每一级的压缩均由 Q-former 模块实现该模块接收缓冲的观测 Token {obuffer_t} 作为输入同时输入相关的时刻嵌入 e_time 和相机嵌入 e_cam。对于层级 L_k 帧将 【N_img / r_k】 个可学习的查询 Tokenquery tokens与原始观测 Token 及其他嵌入进行拼接随后以 MMDiT [34] 方式通过自注意机制处理这一组合序列。查询 Token 通过双向注意机制选择性地聚合与任务相关的视觉特征从而生成每一帧的压缩表示。压缩完成后来自各层级的 Token 按时间顺序从早到晚重新排列。为了适配这种分层压缩结构采用源自 Alpamayo 的 RoPE 位置嵌入 [35]对于压缩比为 r_k 的层级 L_k 中的 Token其 RoPE 频率步长会按 r_k 进行缩放。这种做法确保位置编码在不同压缩层级间保持一致并与未压缩序列保持对齐。该压缩过程采用端到端学习方式而非依赖人工设计的规则。尽管分层缓冲结构为时间衰减提供了归纳偏置但查询 Token 能够自适应地决定保留哪些视觉特征。最终生成的压缩 Token 构成基于轨迹条件的记忆trajectory-conditioned memory。3 面向规划的变分Token压缩尽管分层压缩减少Token数量但它并未将压缩过程与规划目标显式耦合即未能根据下游规划需求来决定保留哪些信息。为此引入一种结合向量量化VQ的条件变分自编码器cVAE框架通过将压缩质量与轨迹预测相耦合来解决这一问题。其核心思想是从未来轨迹中提炼驾驶意图将其转化为紧凑的离散潜变量 z随后训练压缩后的观测信息使其足以预测该潜变量从而确保保留对决策至关重要的历史线索如图2。变分编码器架构。在训练和推理阶段采用两个功能各异的编码器。这两个编码器均采用轻量化架构以确保相对于策略主干网络而言其计算效率保持在较高水平。后验编码器 q_φ (z | o, τ_future)仅在训练时使用从未来轨迹中提取驾驶意图。先验编码器 p_θ (z | o_compressed)训练与推理该编码器仅利用来自 Q-former的压缩观测值 o_compressed 来预测驾驶意图的潜变量而不使用未来信息。向量量化z_q 和 z_p 均通过 argmin_k ||z − c_k|| 映射至一个共享的离散码本从而得到量化嵌入 z_skill c_i*。策略输入构成。通过 VQ 获得的离散技能嵌入 z_skill在训练和推理阶段均使用先验编码器的 z_p经由一个学习得到的线性层进行重投影并作为特殊token进行添加。该token与轨迹条件记忆 o_compressed、历史轨迹tokens以及重新应用的时间步和相机嵌入进行拼接。随后该组合序列被输入到统一的 Transformer 主干网络基于 Alpamayo [1]以自回归方式预测未来的轨迹token。端到端训练。整个系统由Q-former压缩器、先验/后验编码器、VQ码本和策略骨干组成采用综合目标进行端到端优化。在训练过程中策略基于从先验编码器prior encoder采样的潜变量 z_p而非后验变量 z_q进行条件化从而确保训练与推理阶段的一致性。这种设计在压缩与规划之间建立一种闭环耦合关系如果 Q-former 丢弃对决策至关重要的历史信息先验编码器便无法准确预测由未来轨迹推断出的潜变量进而导致 KL 散度升高及轨迹预测性能下降。通过这种联合优化模型能够隐式地识别出哪些历史信息对下游决策至关重要而无需依赖人工设计的保留规则。推理。在测试阶段仅先验路径处于激活状态。模型利用 Q-former 压缩观测信息根据轨迹条件化记忆预测潜变量 z_p通过 VQ向量量化将其量化以检索离散技能嵌入discrete skill embedding随后将其重投影并作为特殊 Token 拼接最后自回归地生成轨迹 Token。这种机制既保持与统一 VA 架构的完全兼容性又能在严格的 Token 预算限制下实现有效长时程规划。重点关注那些长时历史上下文对于确定正确驾驶行为起关键作用的场景。既往研究 [6] 表明关键驾驶决策依赖于 5 到 10 秒时间窗口内捕捉到的行为线索相比之下标准驾驶策略通常仅处理 1 到 2 秒的数据而涉及整条路线长时空间记忆的导航任务则与之截然不同。识别一些具有高信息价值的动态场景在这些场景中长时上下文决定了行为的正确性此外针对这些决策至关重要的结果设计超越单纯轨迹位移的评估指标。A. 作为记忆测试场景的停车标志控制路口确定三类长时历史上下文发挥显著作用的场景如图 3(1) 需要根据到达顺序协商通行权的四向停车路口(2) 需要评估动态横向交通流的停车/让行标志路口以及 (3) 需要做出间隙接受gap acceptance决策的无保护转弯场景。这些场景具有一个共同的基本特征正确的行为取决于离散决策的正确性即车辆是否在必要时停车、在适当时通行而非轨迹的平滑度。• 四向停车路口。多辆车辆到达十字路口所有通道上均设有通行标志。通行权遵循到达顺序 [6]要求跟踪哪些车辆在几秒钟内提前到达。自车需要确定其在该时间队列中的位置。该模型必须维护 5-10 秒前的到达时间信息以便正确推断让行顺序并在获得通行权时迅速前进。• 动态遮挡停止/让行。当自车接近十字路口时先前可见的参与者可能会被遮挡或退出视野。该模型必须保持几秒钟前观察的状态而不是仅仅依赖当前可见的对象以避免错误地将被遮挡的交叉点评估为清晰。• 无保护转弯。自车在没有受保护信号的情况下穿越迎面而来的交通。几秒钟前观察的迎面驶来车辆可能会开始减速以让行或保持速度要求本车停下来等待安全间隙。如果不能在几秒钟内跟踪迎面而来的车辆的轨迹该模型就有可能变成迎面而来的车辆或不必要地等待。这三个场景类别涵盖驾驶中的核心决策挑战。根据[6]这里测试的基本技能即接受间隙、通行权协商和停车行为方面的错误约占十字路口事故的 40%。B 行为评估指标诸如 minADE [38] 之类的传统指标与这些对决策至关重要的场景并不匹配。“溜车式停车”rolling stop可能获得较低的 minADE但却属于违规行为 [39]反之若停车动作正确但稍有延误尽管安全性更高却会导致较高的 minADE。提出一套行为指标用于直接评估车辆在上述三类场景中的决策正确性• 停车成功率Stop SR衡量车辆在需要时是否实现完全停止速度 v_stop。对于持续停车场景检查预测轨迹在“真值”ground-truth停车时段内并在一定时间容差范围内是否保持静止状态。• 起步成功率Go SR评估车辆在停车后是否继续行驶而非无限期停滞。这包括评估车辆在获得通行权后是否能及时起步以确保模型不会造成交通流中断。• 溜车通过率Roll-Through Rate量化车辆未能完全停止、而是执行“溜车式停车”即最低速度 ≥ v_stop的比例。这种溜车通过行为既违法又危险 [39], [6]。• 停车位置误差Stop Position Error衡量实际停车位置与指定停车线之间的空间偏差。• 停车时长误差Stop Duration Error量化预测停车时长与真值停车时长或人类驾驶行为中的停车时长之间的偏差。评估设置数据集与场景。基于 Alpamayo 物理 AI 数据集 [40] 采用两种互补的协议进行评估针对精选的“依赖记忆”场景进行开环评估以及针对常规驾驶进行闭环评估以验证常规性能。为了严格评估记忆性能从数据集中筛选出一个包含上述场景的子集其中真值轨迹ground-truth trajectories表现出以下特征(1) 在 6.4 秒内减速至 1 m/s 以下(2) 保持静止状态速度 0.5 m/s至少 0.5 秒以及 (3) 随后加速表明成功完成间隙判断gap acceptance并驶离。该子集约占整个数据集的 16%其中行为的正确性明确无误且基于记忆的推理至关重要。对于开环评估从该子集中提取一个包含 20,000 个片段的验证集每个片段 20 秒10Hz 采样下为 200 帧关键决策点位于特定帧并使用剩余数据进行训练。在此子集上训练的模型专注于依赖记忆的决策制定。实现细节。在所有实验中用 T 20 个时间步4Hz 采样下为 5 秒、N_cam 2 个摄像头以及 N_img 160 个图像 token。在不进行压缩的情况下这将产生 N_raw 6,400 个视觉 token。分层压缩采用 K3 层结构第 1 层n1 4 帧r1 1、第 2 层n2 5 帧r2 16和第 3 层n3 11 帧r3 80最终压缩至 N_compressed 1,424 个 token压缩率为 4.5 倍。驾驶潜空间维度为 dz 32。对于后验编码器轨迹被量化为 128 个离散 token64 个路径点每个路径点对应 2 个 token随后压缩至 N_agg 5 个 tokenN_local 4 个局部 token 1 个全局 token。VQ 码本大小为 K 20。在行为指标方面停止速度阈值为 v_stop 0.5 m/s。基线设置。在不同的历史信息和 token 预算条件下将 COMPACT-VA 与基线方法进行比较标准 Alpamayo 仅保留最近 1 秒的观测数据8 帧1280 个 token代表基础设置 [1]“稀疏观测长历史”通过稀疏采样将上下文扩展至 5 秒8 帧1280 个 token“密集观测长历史”在 5 秒内保持完整的 4Hz 采样且不进行压缩40 帧6400 个 token“无规划对齐的压缩”采用分层压缩但不包含规划对齐模块40 帧1424 个 token以及 COMPACT-VA离散/连续它引入规划对齐的变分压缩使用基于离散 FSQ 或连续潜空间的编码1424 个 token。所有方法均进行训练。在同一数据集上进行端到端处理。

相关新闻