
一句话概括DEIM 是一个针对 DETR 系列实时目标检测器的训练加速框架通过Dense O2O密集一对一匹配增加监督信号密度配合MAL匹配质量感知损失优化低质量匹配实现收敛速度翻倍 精度提升且不增加任何推理开销。视频讲解DEIM超越 YOLO快准双绝DEIM让 DETR 告别慢收敛开启实时检测新纪元_哔哩哔哩_bilibiliDEIM超越 YOLO快准双绝带你了解如何在自己的数据集上面跑DEIM_哔哩哔哩_bilibili代码tgf123/YOLOv8_improve背景DETR 的收敛困境DETR 用匈牙利算法做一对一O2O匹配天然无需 NMS端到端。但 O2O 带来两个致命问题问题原因后果监督稀疏每个目标只配一个正样本O2M 通常配 4-10 个正样本数严重不足收敛慢尤其小目标表现差低质量匹配300 个随机初始化 query 缺乏空间先验大量匹配 IoU 极低但置信度偏高模型对低质量框缺乏惩罚难以自我纠正实验数据SimOTAO2M每图正样本可达 80HungarianO2O峰值集中在 10极端情况下 O2M 的正样本是 O2O 的10 倍。DEIM 做了什么两个核心组件1. Dense O2O — 密集一对一匹配核心思想不改变 O2O 匹配结构而是增加每张图的目标数量从而间接增加正样本数。实现方式用经典数据增强拼图——Mosaic4 张图拼成 1 张 → 目标数 ×4Mixup2 张图按随机比例叠加 → 目标数增加以 Mosaic 为例原始 1 张图有 1 个目标、1 个正样本4 张图拼成 1 张后有 4 个目标、4 个正样本。匹配方式不变仍是一对一但监督密度接近 O2M。关键优势不需要额外 decoder 或辅助 head对比 Group DETR 需要 K 组独立 decoderCo-DETR 需要辅助检测头零额外推理开销Mosaic/Mixup 只在训练时使用实现极简只需在训练 pipeline 中开启标准增强训练策略训练前 50% epoch 开启 Dense O2O后 50% 关闭回归正常训练最后 2 个 epoch 关闭所有数据增强。前 4 个 epoch 还有 DataAug Warmup简化注意力学习。2. MAL — 匹配质量感知损失Matchability-Aware LossDense O2O 增加了正样本但也引入大量低质量匹配——query 和 GT 的 IoU 很低比如 0.05但分类置信度却很高比如 0.9。模型在我很有信心但我框歪了的状态下缺乏纠正信号。现有损失函数的问题Focal Loss只看置信度完全不管框的质量。置信度 0.9 IoU 0.05 和置信度 0.9 IoU 0.95损失一样。VFL引入了 IoU 作为目标标签比 FL 进了一步但对低质量匹配几乎无感——当 IoU0.05、置信度0.9 时VFL 的损失值极小且几乎不变loss landscape 接近水平面等于放任不管。所以 MAL 要解决的核心问题是让损失函数对低质量匹配产生足够强的梯度信号同时不破坏高质量匹配的优化效果。MAL 公式p分类置信度q预测框与GT的IoUγ超参数最优1.5。固定 p0.9γ1.5目标标签 两项拆解MAL 正样本-q^γ · log(p) - (1 - q^γ) · log(1-p)第一项-q^γ · log(p)惩罚置信度不够高目标标签越大 → 惩罚越重 (term1)第二项-(1 - q^γ) · log(1-p)惩罚置信度不该高却高目标标签越小 → 这项越大 → 惩罚越重(term2)场景term1 做什么term2 做什么净效果IoU 高 置信度高鼓励维持高置信度几乎不干预保持现状很好IoU 高 置信度低推高置信度不管纠正好框该自信IoU 低 置信度高不管重罚压低置信度纠正歪框别自信IoU 低 置信度低不管鼓励保持低置信度保持现状正确低质量匹配IoU0.05q^1.5 0.0112pVFL term1:q²·log(p)MAL term1 :q^1.5·log(p)VFL term2 :q(1-q)·log(1-p)MAL term2 -(1-q^1.5)·log(1-p)VFL totalMAL totalVFL ΔMAL ΔΔ比0.10.00580.02570.00500.10420.01080.1299———0.30.00300.01350.01690.35270.02000.36610.00920.236225.7×0.50.00170.00770.03290.68540.03470.69310.01470.327022.2×0.70.00090.00400.05721.19050.05811.19450.02340.501421.4×0.90.00030.00120.10942.27680.10962.27800.05161.083521.0×高质量匹配IoU0.95q^1.5 0.9259pVFL term1 -q²·log(p)MAL term1 -q^1.5·log(p)VFL term2 -q(1-q)·log(1-p)MAL term2 -(1-q^1.5)·log(1-p)VFL totalMAL totalVFL ΔMAL ΔΔ比0.12.07812.13210.00500.00782.08312.1399———0.31.08661.11480.01690.02641.10351.1412-0.9796-0.99861.0×0.50.62560.64180.03290.05130.65850.6931-0.4450-0.44811.0×0.70.32190.33030.05720.08920.37910.4194-0.2794-0.27371.0×0.90.09510.09760.10940.17050.20450.2681-0.1746-0.15130.9×