DriveWorld：一个预训练模型大幅提升检测+地图+跟踪+运动预测+OCC多个任务性能-尧图网站设计

1. 写在前面以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注而预训练对于提取通用表示至关重要。然而当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务忽视了自动驾驶作为4D场景理解任务的时序特征。这里通过引入一个基于世界模型的自动驾驶4D表示学习框架DriveWorld来解决这一挑战该框架能够从多摄像头驾驶视频中以时空方式进行预训练。具体来说提出了一个用于时空建模的记忆状态空间模型它由一个动态记忆库模块组成用于学习时间感知的潜在动态以预测未来变化以及一个静态场景传播模块用于学习空间感知的潜在静态以提供全面的场景上下文。此外还引入了一个任务提示以解耦用于各种下游任务的任务感知特征。实验表明DriveWorld在各种自动驾驶任务上取得了令人鼓舞的结果。当使用OpenScene数据集进行预训练时DriveWorld在3D检测中实现了7.5%的mAP提升在线地图中的IoU提升了3.0%多目标跟踪中的AMOTA提升了5.0%运动预测中的minADE降低了0.1m占用预测中的IoU提升了3.0%规划中的平均L2误差减少了0.34m。2. 领域背景图 1. 不同视觉预训练方法的比较以自动驾驶为中心。(a) 单目 2D 预训练 2D 前置文本任务例如2D 分类和深度估计。(b) 通过 3D 场景重建或 3D 进行多摄像机 3D 预训练物体检测。(c) 提出的基于世界的4D预训练模型学习统一的时空表示。自动驾驶是一项复杂的任务它依赖于全面的4D场景理解。这要求获得一个稳健的时空表示能够处理涉及感知、预测和规划的任务。由于自然场景的随机性、环境的部分可观察性以及下游任务的多样性学习时空表示极具挑战性。预训练在从大量数据中获取通用表示方面起着关键作用使得能够构建出包含共同知识的基础模型。然而自动驾驶中时空表示学习的预训练研究仍然相对有限。我们的目标是利用世界模型来处理以视觉为中心的自动驾驶预训练中的4D表示。世界模型在表示代理对其环境的时空知识方面表现出色。在强化学习中DreamerV1、DreamerV2和DreamerV3利用世界模型将代理的经验封装在预测模型中从而促进了广泛行为的习得。MILE利用3D几何作为归纳偏差直接从专家演示的视频中学习紧凑的潜在空间以在CARLA模拟器中构建世界模型。ContextWM和SWIM利用丰富的野外视频对世界模型进行预训练以增强下游视觉任务的高效学习。最近GAIA-1和DriveDreamer构建了生成性的世界模型利用视频、文本和动作输入使用扩散模型创建逼真的驾驶场景。与上述关于世界模型的先前工作不同本文的方法主要侧重于利用世界模型学习自动驾驶预训练中的4D表示。驾驶本质上涉及与不确定性的斗争。在模糊的自动驾驶场景中存在两种类型的不确定性偶然不确定性源于世界的随机性以及认知不确定性源于不完美的知识或信息。如何利用过去的经验来预测可能的未来状态并估计自动驾驶中缺失的世界状态信息仍然是一个未解决的问题。本文探索了通过世界模型进行4D预训练以处理偶然不确定性和认知不确定性。具体来说设计了记忆状态空间模型从两个方面减少自动驾驶中的不确定性。首先为了处理偶然不确定性我们提出了动态记忆库模块用于学习时间感知的潜在动态以预测未来状态。其次为了缓解认知不确定性我们提出了静态场景传播模块用于学习空间感知的潜在静态特征以提供全面的场景上下文。此外引入了任务提示 (Task Prompt)它利用语义线索作为提示以自适应地调整特征提取网络以适应不同的下游驾驶任务。为了验证提出的4D预训练方法的性能在nuScenes训练集和最近发布的大规模3D占用率数据集OpenScene上进行了预训练随后在nuScenes训练集上进行了微调。实验结果表明与2D ImageNet预训练、3D占用率预训练和知识蒸馏算法相比4D预训练方法具有显著优势。4D预训练算法在以视觉为中心的自动驾驶任务中表现出极大的改进包括3D检测、多目标跟踪、在线建图、运动预测、占用率预测和规划。3. 网络结构DriveWorld的总体框架如下所示由于自动驾驶严重依赖于对4D场景的理解方法首先涉及将多摄像头图像转换为4D空间。在所提出的时空建模的记忆状态空间模型中有两个基本组件动态记忆库它学习时间感知的潜在动态以预测未来状态以及静态场景传播它学习空间感知的潜在静态特征以提供全面的场景上下文。这种配置有助于解码器为当前和未来时间步重建3D占用和动作的任务。此外基于预训练的文本编码器设计了任务prompt以自适应地为各种任务解耦任务感知特征。图 2. 拟议的 DriveWorld 的总体框架。由于自动驾驶很大程度上依赖于对 4D 场景的理解我们该方法首先涉及将多摄像机图像转换为 4D 空间。在建议的内存状态空间模型中时空建模我们有两个基本组件动态内存库它学习时间感知的潜在动态用于预测未来状态以及静态场景传播它学习空间感知的潜在静态以提供全面的场景语境。此配置有利于解码器重建当前和未来时间的 3D 占用和动作的任务步骤。此外我们基于预训练的文本编码器设计任务提示以自适应地解耦各种任务的任务感知功能。提出的记忆状态空间模型 (MSSM) 的总体架构。MSSM将传输的信息分为两类时间感知信息和空间感知信息。动态记忆库模块利用运动感知层归一化 (MLN) 来编码时间感知属性并与动态更新的记忆库进行信息交互。同时静态场景传播模块使用BEV特征来表示空间感知的潜在静态信息这些信息直接被传送到解码器。图 3. 所提出的内存状态的整体架构空间模型MSSM。MSSM对传输的信息进行划分分为两类时间感知信息和空间感知信息。动态内存库模块利用运动感知层归一化MLN来编码时间感知at- 致敬并与动态进行信息交互及时更新记忆库。同时静态场景道具 agation 模块采用 BEV 特征来表示空间感知潜在的静态数据直接传送到解码器。虽然通过世界模型设计的预训练任务使得时空表示的学习成为可能但不同的下游任务侧重于不同的信息。例如3D检测任务强调当前的空间感知信息而未来预测任务则优先考虑时间感知信息。过分关注未来的信息如车辆未来的位置可能会对3D检测任务产生不利影响。为了缓解这个问题受到少样本图像识别中语义提示和多任务学习中视觉示例驱动的提示的启发引入了“任务提示”的概念为不同的头提供特定的线索以指导它们提取任务感知特征。认识到不同任务之间存在的语义联系利用大型语言模型来构建这些任务提示。4. 损失函数DriveWorld的预训练目标涉及最小化后验和先验状态分布之间的差异即Kullback-LeiblerKL散度以及最小化与过去和未来3D占用即CrossEntropy损失CE和L1损失。这里描述了模型在T个时间步上观察输入然后预测未来L步的3D占用和动作。DriveWorld的总损失函数是5. 实验对比分析数据集。在自动驾驶数据集 nuScenes 和最大规模的3D占用数据集 OpenScene 上进行预训练并在nuScenes上进行微调。评估设置与 UniAD 相同。预训练。与 BEVFormer 和 UniAD 一致使用ResNet101-DCN 作为基础骨干网络。对于3D占用预测设置了16 × 200 × 200的体素大小。学习率设置为2×10−4。默认情况下预训练阶段包含24个epoch。微调。在微调阶段保留用于生成BEV特征的预训练编码器并对下游任务进行微调。对于3D检测任务我们使用了 BEVFormer 框架微调其参数而不冻结编码器并进行了24个epoch的训练。对于其他自动驾驶任务我们使用了 UniAD 框架并将我们微调后的BEVFormer权重加载到UniAD中对所有任务遵循标准的20个epoch的训练协议。对于UniAD我们遵循其实验设置这包括在第一阶段训练6个epoch在第二阶段训练20个epoch。实验使用8个NVIDIA Tesla A100 GPU进行。Occ任务和BEV-OD任务上的提升一览更多目标跟踪和规划任务性能提升一览参考文献DriveWorld一个预训练模型大幅提升检测地图跟踪运动预测Occ多个任务性能DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

DriveWorld：一个预训练模型大幅提升检测+地图+跟踪+运动预测+OCC多个任务性能

相关新闻

C语言算法性能优化终极指南：从理论到实践的10个关键技巧

量子纠错解码器硬件仿真与有限精度优化实践

基于MCP协议连接AI与Azure DevOps：开源服务器部署与核心功能详解

信号净化实战：从基础平滑到智能去噪

英雄联盟Akari助手：免费开源的终极游戏效率工具完整指南

Godot引擎海量子弹性能优化：数据驱动与合批渲染实战

GitHub汉化插件终极指南：3分钟让GitHub界面完全中文化

告别哨兵模式！用两台服务器搞定Redis高可用：Keepalived+主从互备实战（附脚本）

SwiftSage智能体架构解析：双系统协同实现AI高效规划与执行

终极UE5项目版本控制指南：让大型游戏项目协作提速50%的完整方案

从IMU到UWB：拆解美国队长盾牌自主归位的嵌入式控制核心

5大革新点解析：Faze4六轴机械臂从开源设计到工业级应用的实战指南

贾子竞争哲学与文明范式革命：让对手失去存在的意义

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

AI 范式文明依附与贾子理论的破局价值：技术主权视角下的中美 AI 竞争伪命题批判

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程