前沿动态追踪:当DETR遇见ViT的进击之路)
一、从一次深夜调试说起上周在部署RT-DETR的轻量化版本时,遇到一个诡异问题:模型在COCO验证集上mAP掉了3个点,但可视化结果显示检测框反而更“准”了。排查半天,发现是ViT骨干网络某层注意力头出现了严重的特征坍缩——几个头几乎输出相同特征,导致模型多样性下降。这让我重新审视ViT在目标检测中的演进:它早已不是2020年那个需要预训练在ImageNet-21K上的“巨无霸”,而正在变得轻巧、高效、甚至能在边缘设备上实时运行。二、ViT的轻量化革命:从Patch到Token的进化早期的ViT把图像切成16×16的patch,每个patch视为一个token。这个设计在分类任务还行,但在检测任务里,空间细节丢失严重。现在的主流思路变了:# 旧版ViT的patch embedding(别这样写)self.patch_embed=nn.Conv2d(3,