
摘要TAPIRTracking Any Point with per-frame Initialization and temporal Refinement由Google DeepMind提出是一个能够在视频中跟踪任意物理表面点的模型。其核心设计是两阶段管线第一阶段通过全局匹配逐帧独立初始化候选轨迹第二阶段通过局部相关性的时序深度卷积网络迭代精炼。在TAP-Vid benchmark上TAPIR在DAVIS数据集上实现~20% AJ绝对提升61.3 vs PIPs 42.0同时比PIPs快120倍。论文发表于ICCV 2023。论文TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement代码google-deepmind/tapnet一、问题背景点跟踪Point Tracking的目标是给定视频中某一帧的一个查询点( x , y , t ) (x, y, t)(x,y,t)预测该物理表面点在所有其他帧中的位置以及可见性。现有方法的局限TAP-Net2022全局匹配一次性输出无时序精炼精度受限于低分辨率特征PIPsPersistent Independent Particles通过Chaining在时间块间传递跟踪但速度极慢50帧需34.5秒且MLP-Mixer架构需要固定时间块长度TAPIR的核心洞察将TAP-Net的全局初始化能力与PIPs的局部精炼能力结合同时用全卷积替代MLP-Mixer消除块处理的瓶颈。二、核心方法2.1 整体架构图 1TAPIR两阶段架构。重点看Stage 2的迭代精炼——12层深度卷积网络输出位置/遮挡/不确定性/特征四路残差迭代4次收敛。来源重绘自 design skillYesNoVideo Query PointTSM-ResNet18 BackboneStage 1: Global Cost VolumeSpatial Softmax → Coarse PositionStage 2: Local 7x7 Correlation12-Block Depthwise ConvIteration 4?Final Track Visibility2.2 Stage 1: 逐帧初始化Per-Frame Initialization骨干网络TSM-ResNet18输出stride-8特征图F ∈ R T × H 8 × W 8 × C F \in \mathbb{R}^{T \times \frac{H}{8} \times \frac{W}{8} \times C}F∈RT×8H×8W×C。全局匹配流程在查询帧t q t_qtq的位置( x q , y q ) (x_q, y_q)(xq,yq)通过双线性插值提取查询特征F q F_qFq对每一帧计算Cost VolumeF q F_qFq与该帧所有位置的点积ConvNet处理Cost Volume→ \rightarrow→空间热力图Spatial Softmax→ \rightarrow→概率分布→ \rightarrow→加权平均得到位置估计p ^ t \hat{p}_tp^t初始化LossL ( p ^ t , o t , u t ) Huber ( p ^ t , p t ) ⋅ ( 1 − o ^ t ) BCE ( o ^ t , o t ) BCE ( u ^ t , u t ) ⋅ ( 1 − o ^ t ) \mathcal{L}(\hat{p}_t, o_t, u_t) \text{Huber}(\hat{p}_t, p_t) \cdot (1 - \hat{o}_t) \text{BCE}(\hat{o}_t, o_t) \text{BCE}(\hat{u}_t, u_t) \cdot (1 - \hat{o}_t)L(p^t,ot,ut)Huber(p^t,pt)⋅(1−o^t)BCE(o^t,ot)BCE(u^t,ut)⋅(1−o^t)其中不确定性标签u t u_tut为自监督生成u ^ t { 1 if ∥ p pred − p gt ∥ δ 0 otherwise , δ 6 pixels \hat{u}_t \begin{cases} 1 \text{if } \|p_{\text{pred}} - p_{\text{gt}}\| \delta \\ 0 \text{otherwise} \end{cases}, \quad \delta 6 \text{ pixels}u^t{10if∥ppred−pgt∥δotherwise,δ6pixels推理时可见性判定( 1 − u t ) ⋅ ( 1 − o t ) 0.5 (1 - u_t) \cdot (1 - o_t) 0.5(1−ut)⋅(1−ot)0.5。2.3 Stage 2: 迭代时序精炼Temporal Refinement这是TAPIR精度提升的核心。消融实验表明去掉精炼后DAVIS AJ从61.3暴跌至41.6-32%。Local Score Maps在当前位置估计p t ( i ) p_t^{(i)}pt(i)周围提取7 × 7 7 \times 77×7邻域的多尺度相关性分数使用特征金字塔3-5层stride 8/16/32/64/128。精炼网络12层深度卷积网络Depthwise Convolutional Network输入维度T × ( C K 4 ) T \times (C K 4)T×(CK4)其中K KK为展平的score map值每层结构1 × 1 1 \times 11×1Conv Depthwise Conv时间维度 GeLU隐藏维度512 → 2048 512 \rightarrow 2048512→2048通过4路并行depthwise conv扩展→ 512 \rightarrow 512→512残差连接贯穿输出每次迭代四路残差( Δ P t ( i ) , Δ o t ( i ) , Δ u t ( i ) , Δ F q , t ( i ) ) (\Delta P_t^{(i)},\; \Delta o_t^{(i)},\; \Delta u_t^{(i)},\; \Delta F_{q,t}^{(i)})(ΔPt(i),Δot(i),Δut(i),ΔFq,t(i))位置累积更新p t ( i 1 ) p t ( i ) Δ P t ( i ) p_t^{(i1)} p_t^{(i)} \Delta P_t^{(i)}pt(i1)pt(i)ΔPt(i)特征更新使查询特征适应目标外观变化。为什么用Depthwise Conv替代MLP-MixerMLP-Mixer需要固定时间块长度不同块间要Chaining传递Depthwise Conv在时间维度做局部卷积天然支持任意长度无需分块→ \rightarrow→无需Chaining→ \rightarrow→速度从34.5s降到0.25s2.4 自监督不确定性估计TAPIR的不确定性是自监督的训练时用预测位置与GT的距离是否超过阈值δ \deltaδ来生成伪标签。推理时低置信度预测被抑制显著提升benchmark分数去掉后Kinetics AJ从57.2降到54.4。三、实验分析3.1 TAP-Vid Benchmark图 2迭代精炼收敛过程与消融分析。重点看左侧4次迭代后AJ趋于平台右侧消融中去掉Refinement影响最大。来源重绘自 design skill方法Kinetics AJDAVIS AJRGB-Stacking AJKubric AJTAP-Net46.638.459.965.4PIPs35.342.037.359.1TAPIR57.261.362.784.73.2 高分辨率扩展TAPIR支持图像金字塔推理对数间隔分辨率最低256x256逐步x2到原始分辨率分辨率DAVIS AJKinetics AJ256x25661.357.21080p65.7-720p-60.03.3 速度对比V100 GPU50点方法25帧50帧参数量TAP-Net0.05s0.09s2.8MPIPs17.9s34.5s28.7MTAPIR0.15s0.25s29.3MTAPIR与PIPs参数量相当29.3M vs 28.7M但快120倍。实时推理可达256点256x25640fps。3.4 消融分析去掉组件Kinetics AJDAVIS AJ影响Full Model57.261.3-- Iterative Refinement48.141.6最关键(-32%)- Higher Res Feature54.054.0-12%- Depthwise Conv54.953.8-12%- Uncertainty54.458.6-4.4%- TAP-Net Init54.759.3-3.3%精炼迭代次数1次7.6 AJ2次1.03次0.14次0.4后plateau。四、关键设计决策4.1 Coarse-to-Fine策略Stage 1用stride-8低分辨率全局匹配避免局部最优Stage 2在高分辨率局部邻域精细对齐。类似光流中先计算粗光流再warp精炼的经典范式但TAPIR将其统一到单个可训练框架中。4.2 训练数据的关键性TAPIR仅用合成数据Kubric MOVi-E100K视频训练。关键改进是Panning MOVi-E变体相机沿线性轨迹运动模拟真实视频中的相机平移。这一改动使Kinetics AJ从54.1提升到57.23.1。4.3 查询特征更新机制精炼中不仅更新位置还更新查询特征F q F_qFq。这使得跟踪器能适应目标外观变化如光照、形变而非始终依赖初始帧的静态特征。小结TAPIR的核心贡献是证明了全局初始化 局部迭代精炼的两阶段范式在点跟踪中的有效性且全卷积架构使其兼具高精度与高效率。创新点两阶段设计融合TAP-Net全局匹配与PIPs局部精炼的各自优势全卷积Depthwise Conv替代MLP-Mixer消除Chaining瓶颈速度提升120倍自监督不确定性估计无需额外标注即可抑制低置信度预测局限性仅用合成数据训练对真实世界极端场景泛化有限查询点需要手动指定不支持自动发现可跟踪点遮挡恢复依赖于Stage 1的全局匹配质量长期跟踪50帧精度可能因特征漂移下降个人判断TAPIR确立了初始化精炼作为点跟踪标准范式后续CoTracker、BootsTAP均沿用。其设计哲学直接影响了VGGT等后续工作先用全局attention建立粗对应再用局部信息精炼。对VIO系统的启示——TAPIR的自监督不确定性估计可直接用于前端特征跟踪的质量评估其失败时回退到全局重匹配的策略与VIO中跟踪丢失后的重定位逻辑一脉相承。