
原文翻译论文信息标题:Weakly and Self-Supervised Class-Agnostic Motion Prediction for Autonomous DrivingarXiv: 2509.13116作者:Ruibo Li, Hanyu Shi, Zhe Wang, Guosheng Lin备注:CVPR 2023 论文的扩展版,已接受发表于 TPAMI摘要理解动态环境中的运动对自动驾驶至关重要,这也推动了类无关运动预测的研究。在本工作中,我们研究了基于 LiDAR 点云的弱监督和自监督类无关运动预测。户外场景通常由移动的前景和静态的背景组成,这使得运动理解可以与场景解析相关联。基于这一观察,我们提出了一种新颖的弱监督范式,用完全或部分标注(1%、0.1%)的前景/背景掩码来替代运动标注进行监督。为此,我们开发了一种弱监督方法,利用前景/背景线索来指导运动预测模型的自监督学习。由于前景运动通常发生在非地面区域,非地面/地面掩码可以作为前景/背景掩码的替代方案,进一步减少标注工作量。利用非地面/地面线索,我们提出了两种额外方法:一种需要更少(0.01%)前景/背景标注的弱监督方法,以及一种无需标注的自监督方法。此外,我们设计了一种鲁棒的一致性感知 Chamfer 距离损失函数,该方法融合了多帧信息和鲁棒惩罚函数,以抑制自监督学习中的异常值。实验表明,我们的弱监督和自监督模型优于现有的自监督对应方法,我们的弱监督模型甚至可以与一些监督方法相媲美。这证明我们的方法有效地平衡了标注工作量和性能。引言 (Introduction)理解周围环境的动态对自动驾驶至关重要 [1]。特别是运动预测,它根据过去的信息生成物体的未来位置,对确保安全的规划和导航至关重要。传统方法 [2]、[3]、[4] 采用目标检测、跟踪和轨迹预测进行运动预测。然而,这些基于检测的方法在遇到训练数据中不存在的未知类别时可能会失效 [5]。为了解决这个问题,许多方法 [5]、[6]、[7] 建议直接从点云的鸟瞰图(BEV)估计类无关运动,这在准确性和计算成本之间取得了良好平衡。然而,传感器无法在复杂环境中捕获运动信息 [1],导致运动数据稀缺且成本高昂。因此,大多数现有的真实世界运动数据是通过半监督学习方法利用辅助信息生成的,如 KITTI [1]、[8],或源自人工标注的目标检测和跟踪数据,如 Waymo [9]。为了减少对标运动标注的依赖,许多近期研究 [10]、[11]、[12]、[13]、[14] 研究了用很少或没有运动数据的运动学习。具体而言,SSMP [10] 研究了使用少量运动标注进行训练的半监督运动预测。PillarMotion [11]、ContrastMotion [12]、SSMotion [14] 和 SelfMotion [13] 探索了不依赖运动标注进行训练的自监督运动预测。尽管这些方法取得了令人鼓舞的结果,但与完全监督方法相比仍存在显著的性能差距。户外场景通常可以分解为一组移动物体和背景 [1],使我们能够将运动理解与场景解析相关联。如图 1(a) 和 (b) 所示,经过自运动补偿后,运动仅存在于前景点中。因此,如果我们区分移动的前景和静态的背景,我们就可以专注于从这些潜在移动的前景物体中提取有价值的动态运动监督,从而实现更有效的自监督运动学习。基于这一直觉,我们研究了一种新颖的弱监督范式,用完全或逐帧部分标注(1%、0.1%)的前景/背景(FG/BG)掩码替代昂贵的运动标注,实现了标注工作和性能之间的有效平衡。为此,我们提出了 WeakMotion-FB,一种由前景/背景线索引导的弱监督运动预测方法。具体而言,我们首先使用部分标注的 FG/BG 掩码训练 FG/BG 分割网络,然后利用预训练分割网络的引导训练运动预测网络。没有运动标注的情况下,分割网络为每个训练样本生成移动的前景点,从中可以推导动态运动监督以实现运动预测网络的自监督学习。此外,将辅助 FG/BG 分割头集成到运动预测网络中,通过设置背景区域的运动为零来正则化运动预测。在户外场景中,前景点的运动通常发生在非地面区域,如图 1(a)、(b) 和 (d) 所示。这一观察使我们能够利用非地面掩码作为前景掩码的替代方案,从非地面区域提取动态运动监督用于自监督运动学习。基于这一认识,并利用非地面/地面线索,我们提出了两种额外方法:WeakMotion-NG,一种需要更弱 FG/BG 标注的弱监督方法,以及 SelfMotion-NG,一种无需标注的自监督方法。具体而言,在 SelfMotion-NG 中,我们使用基于优化的平面拟合分割非地面点,并以自监督方式在这些非地面点上训练运动预测网络。在 WeakMotion-NG 中,除了在这些非地面点上训练网络外,我们还将辅助 FG/BG 分割头集成到网络中用于运动正则化。由于 WeakMotion-NG 从非地面点而非前景点推导动态运动监督,与 WeakMotion-FB 相比,它需要更少的 FG/BG 标注,能够以更弱的监督进行训练。使用 WeakMotion-NG,我们通过标注 10 帧序列中单帧的 0.1% 的点实现了弱监督运动预测。这种新的 FG/BG 标注策略进一步将整体标注工作减少到约 0.01%。在自监督 3D 运动学习 [11]、[15]、[16] 中,Chamfer 距离(CD)损失函数更受欢迎。然而,CD 对异常值敏感 [17]。不幸的是,异常值在我们的设置中很常见。这可能源于点云序列中的视角变化和遮挡,以及 FG/BG 分割网络估计的 FG 点和平面拟合生成的非地面点中的潜在错误。为了减轻异常值的影响,我们提出了一种新颖的鲁棒一致性感知 Chamfer 距离(RCCD)损失。与典型的 CD 损失不同,我们的 RCCD 损失利用多帧点云的监督,并利用多帧一致性来衡量点的置信度。通过为不确定的点分配较低的权重,我们的 RCCD 损失抑制了潜在的异常值。此外,RCCD 损失采用了鲁棒惩罚函数,如 Geman-McClure 惩罚 [18]、[19] 来衡量点云之间的距离,使其比采用 L2 范数惩罚的 CD 损失对异常值更加鲁棒。我们的主要贡献可以总结如下:在不使用昂贵运动数据的情况下,我们提出了一种弱监督运动预测范式,使用完全或部分标注的前景/背景(FG/BG)掩码作为监督,实现了标注工作和性能之间的良好折衷。据我们所知,这是第一项关于弱监督类无关运动预测的工作。通过将运动理解与场景解析相关联,我们提出了一种弱监督方法 WeakMotion-FB,使用 FG/BG 线索引导运动预测模型的自监督学习。该方法大幅优于自监督方法,性能与多种完全监督方法相当。通过使用非地面/地面掩码替代 FG/BG 掩码,我们开发了另一种弱监督方法 WeakMotion-NG,显著减少了标注工作同时提供了令人满意的性能。我们设计了一种新颖的鲁棒一致性感知 Chamfer 距离(RCCD)损失,通过多帧一致性置信度估计和鲁棒惩罚函数有效抑制自监督学习中的异常值。结论本文研究了弱监督和自监督的类无关运动预测。通过将运动理解与场景解析相关联,我们提出了一种弱监督运动预测方法 WeakMotion-FB,使用完全或部分标注的 FG/BG 掩码作为弱监督。此外,通过利用非地面/地面掩码替代 FG/BG 掩码,我们提出了另一种弱监督方法 WeakMotion-NG和一种自监督方法 SelfMotion-NG,以进一步减少甚至消除 FG/BG 标注工作。我们还设计了一种新颖的鲁棒一致性感知 Chamfer 距离损失,用于鲁棒的自监督运动学习。实验表明,我们的弱监督模型超越了自监督模型,性能与部分监督模型相当,在标注工作和性能之间取得了良好的折衷。此外,在不使用任何标注进行监督的情况下,我们的自监督模型在自监督运动预测中达到了最先进的性能。基本名词解释1. 前景掩码(Foreground Mask)是计算机视觉和图像处理中的一个核心概念,指的是一张二值图像(或概率图),用于标记图像中哪些像素属于“前景”(感兴趣的物体),哪些属于“背景”。核心定义:前景(Foreground):图像中你关心的主要物体(如车辆、行人、障碍物)背景(Background):图像中其他无关的区域(如道路、建筑、天空)掩码(Mask):一个与原始图像同尺寸的矩阵,通常:值为1(或255):表示该像素属于前景值为0:表示该像素属于背景使用前景掩码的场景:运动预测:只关心移动物体目标检测:只输出检测到的物体区域使用背景掩码的场景:场景重建:需要背景信息自动驾驶:可行驶区域分析2. 运动标注是指为视频、点云等数据中的动态目标添加结构化标签的过程,其核心目的是让AI模型理解“物体如何运动”。它不是简单地在一张静态图片上画框,而是要在时间维度上捕捉和描述物体的位置变化、轨迹及行为意图。简单来说,静态标注回答“这是什么”,而运动标注回答“它在做什么、要去哪里”。根据你要训练的任务不同,运动标注主要有以下几种形式:类型核心内容应用场景举例数据形式轨迹标注跟踪物体在一段时间内的连续位置,确保其ID不丢失。自动驾驶预测车辆变道轨迹、多目标跟踪跨帧的边界框序列(Bounding Box Sequence)或中心点连线行为/动作标注为一段动作分类(如“跑步”、“打喷嚏”),或细粒度地标注肢体动作。健身APP动作纠正、监控中检测“跌倒”行为视频级分类标签 或 骨骼关键点的时序序列意图/逻辑标注标注驾驶行为背后的决策逻辑(如“正在避让”、“准备超车”)端到端自动驾驶、人机交互意图预测文本描述(如“左前方车辆刹车,驾驶员向右轻微偏移”)或决策标签3. 类无关运动预测(Class-Agnostic Motion Prediction)是运动预测领域的一个核心概念,指的是在预测物体未来的运动轨迹时,不依赖于该物体的语义类别信息(如车、行人、自行车等),仅基于其运动状态和历史轨迹进行预测。与类无关(建议用粤语记忆)4. 监督 弱监督 自监督简单来说,三者的核心区别在于“监督信号”的来源和质量:监督学习:使用人工标注的精确标签(如人工标注的“这是一只猫”),本文中就是指用大量人工标注的驾驶视频,即运动标注。弱监督学习:使用不完美、不精确或间接的监督信号(如“使用图像级标签来训练分割模型”),在本文中就是指基于FG/BG掩码的监督信号,他不是直接的运动信息,但也需要标注。自监督学习:从数据本身自动构造监督信号(如“预测被遮盖的单词”),本文中就是指非地面/地面掩码,这种标注方式可以完全自动,因为可以利用地面是平面的几何特征。重要图表Figure1 - 运动学习框架图1 描述了一个结合弱监督和自监督的运动学习框架,核心思想是利用更容易获取的掩码标注(前景/背景、非地面/地面)来替代昂贵的运动标注,从而大幅降低训练成本。** 核心逻辑**( a ) 真实运动标注 ❌ 太贵↓ 用 ( b ) 完全 FG/BG 掩码替代 → WeakMotion-FB↓ 用 ( c ) 部分 FG/BG 掩码替代 → 降低标注↓ 用 ( d ) 非地面掩码替代 → SelfMotion-NG (零标注!)Figure 1(a) 中的点云:红色点 = 朝前运动的物体(如前方车辆)蓝色点 = 朝后运动的物体(如自车后退或后方车辆靠近)绿色点 = 横向运动的物体(如横穿马路的行人)灰色点 = 静态物体(路面、静止障碍物)颜色越鲜艳/越亮 = 速度越快Figure 2 - 论文核心方法这是论文的核心方法总览图 Figure 2,展示三种提出的运动预测方法!三个方法的对比:( a ) WeakMotion-FB:弱监督,用 FG/BG 标注( b ) WeakMotion-NG:弱监督,用非地面/地面标注( c ) SelfMotion-NG:自监督,无需任何标注统一架构:都使用 WeakMotionNet/SelfMotionNet 网络,输入是多帧 BEV 序列,输出是未来运动场和 FG/BG 分类图。Figure 3 - WeakMotion-FB 方法的详细数据流图这是 Figure 3 - WeakMotion-FB 方法的详细数据流图:输入:2D BEV 序列Vt:t−TV_{t:t-T}Vt:t−T(时间同步的 BEV 地图序列)↓WeakMotionNet (运动预测网络)↓输出:未来运动场Xmot,tX_{mot,t}Xmot,t(箭头表示方向,颜色表示 FG/BG)FG/BG 分类图Xfb,tX_{fb,t}Xfb,tFigure 4 - PreSegNet 的概述图Figure 4 - PreSegNet 的概述图,展示了如何用部分标注训练前景/背景分割网络。输入:单帧 2D BEV 地图VτV_\tauVτ↓PreSegNet (分割网络)↓输出:预测的 2D FG/BG BEV 图Xfb,τX_{fb,\tau}Xfb,τ网络结构(论文 4.3.1 节):Backbone:基于 MotionNet 的简化版移除了时序卷积(因为只处理单帧)FG/BG 分割头:两层 2D 卷积网络Figure 5 - 抑制异常值方法用前后向伪标签的一致性来判断一个点是否可靠,从而抑制异常值。Figure 6 - WeakMotion-NG 方法的详细图示Figure 6 - WeakMotion-NG 方法的详细图示,展示了如何用非地面/地面分割替代前景/背景分割来大幅减少标注需求。Figure 7 - SelfMotion-NG 的概述图Figure 7 - SelfMotion-NG 的概述图,展示了完全无需标注的自监督运动预测方法。用平面拟合自动分割非地面点,纯自监督训练。Figure 8 - 弱监督运动预测模型(WeakMotionNet)在nuScenes数据集上的定性结果这幅图展示了弱监督运动预测模型(WeakMotionNet)在nuScenes数据集上的定性结果,核心信息是:即使仅使用少量前景/背景掩码作为弱监督信号训练,模型依然能有效预测运动(箭头)和分割(紫色/青色)。行次内容说明1Ground Truth真实标注(监督学习的“标准答案”)2Predictions (model trained with 100% masks)使用100% 前景/背景掩码训练的模型预测结果3Predictions (model trained with 1% masks)使用1% 前景/背景掩码训练的模型预测