自动驾驶感知---纯视觉SOTA的Occupancy

发布时间:2026/6/2 20:57:22

自动驾驶感知---纯视觉SOTA的Occupancy 1 前言基于纯视觉的OCC本身并不多早期的BEVFormer也支持纯视觉但纯视觉的效果是不如激光雷达的因此不少车企基于此做了工程上的优化参与到BEV的量产当中。后来特斯拉引领了OCC的量产不少智驾公司又开始研发OCC目前市面上都已经在卷端到端OCC的量产也就1-2年的窗口期。基于视觉的 3D 占用预测在自动驾驶、机器人学和增强现实等领域具有重要应用其目标是根据视觉输入估计 3D 空间中每个体素的占用状态和语义标签。但单目视觉在深度估计上存在固有局限性从单张图像中估计深度具有歧义性而立体视觉因需要大量校准和重新校准在实际应用中受到限制。因此采用多视图时间融合是一种更有前景的方法。本篇博客主要介绍清华大学交叉信息院研究组发表于欧洲计算机视觉国际会议ECCV的一篇论文。2 CVT-Occ该框架对多帧、多视角图像进行处理首先通过图像骨干网络提取多尺度特征。随后这些来自图像空间的特征被转换为鸟瞰图BEV空间特征经 BEV 编码器优化后生成三维体素表示。目前已有大量研究聚焦于从图像空间到 BEV 特征的转换问题。其中一类工作遵循 LSS 提出的 “提升lifting” 范式它们显式预测深度图并将多视角图像特征提升至 BEV 平面。另一类工作继承了 DETR3D 中 “从三维到二维查询” 的思路通过可学习查询learnable queries借助交叉注意力机制从图像特征中提取信息。论文提出的代价体时序CVT模块具有通用性能够兼容不同的图像到体素空间特征转换策略。在实验验证中我们以 BEVFormer 为基础生成三维体素特征随后通过 CVT 模块对这些特征进行优化和增强以此证明我们的方法在利用时空动态信息提升三维场景理解能力方面的有效性和适应性。最后通过占用预测解码器生成最终的体素预测结果。2.1 架构CVT的主要架构如下所示12D 特征与 3D 体素初始化用 ResNet 提取多帧图像 2D 特征通过相机内参 / 外参投影构建当前帧 3D 体素特征BEV 体素化。2代价体时序融合模块核心视线采样对每个体素从相机光心出发沿视线方向采样 K 个深度候选点如 K4。时序几何对齐将候选点通过历史帧相机位姿变换投影到历史 3D 体素空间采样对应特征。代价体构建拼接所有历史帧采样特征形成 (H,W,D,K・C)代价体用 3D 卷积学习时序视差关联。注意力修正卷积 Sigmoid 生成权重图与当前体素特征逐元素相乘强化可靠深度特征、抑制歧义区域。3占据解码修正后的 3D 体素特征经上采样与卷积输出体素级占据概率占用 / 空闲 / 未知。2.2 实验结果性能 SOTAmIoU 达58.3%较 BEVFormer 基线提升2.8%显著优于 SOLOFusion 等方法。类别提升显著车辆4.5%、自行车4.2%、建筑4.1%、植被4.0%等硬样本提升明显。计算高效相比图像级代价体FLOPs 降低约 70%参数增量 5%适合实时自动驾驶场景。可视化对比能精准还原远处 / 遮挡区域 3D 结构歧义区域预测更清晰。3 结论针对纯视觉3D占据预测存在的单目深度模糊、传统时序融合几何约束不足与图像级代价体算力损耗大的问题提出CVT-Occ代价体时序融合方法在3D体素空间构建时序代价体结合视线深度采样、跨帧几何对齐实现特征优化该轻量化模块可灵活嵌入现有模型在Waymo数据集斩获优异精度同时大幅削减计算开销适配自动驾驶实际部署需求。参考论文《CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction》

相关新闻