论文阅读:FSOD-VFM: FEW-SHOT OBJECT DETECTION WITH VISION FOUNDATION MODELS AND GRAPH DIFFUSION

发布时间:2026/5/20 12:33:43

论文阅读:FSOD-VFM: FEW-SHOT OBJECT DETECTION WITH VISION FOUNDATION MODELS AND GRAPH DIFFUSION FSOD-VFM利用视觉基础模型和图形扩散进行少样本目标检测创新点1.提出了FSOD-VFM基础视觉模型其集成了三种先进方法进行少样本预测包括用于生成与类别无关的边界框的通用提议网络UPN、用于精确掩膜提取的SAM2、用于高效适应新对象识别的DINOv2特征实现了无需额外训练的检测。2.设计了一种基于图扩散的置信度重加权机制可以解决UPN生成的边界框过于碎片化的问题。重点介绍1.构建FSOD-VFM图 1FSOD-VFM 概述图。方法集成了 UPN、SAM2 和 DINOv2 来生成边界框提案并执行查询匹配构建一个图并执行图扩散以减轻过度碎片过度碎片化的盒子区域在图扩散后显得更加透明表明它们的置信度已经下降。UPN一个专门用来生成类别无关的候选框的模型其核心目标是生成尽可能多的、覆盖各种可能物体的候选框而不是精确地框出完整物体因此会产生各种大小的候选框也有可能大的覆盖掉小的过度碎片化难以精确识别。SAM2是一个极其强大的视觉基础模型能够根据任何提示比如一个点、一个框对图像中任何物体进行精确分割生成的结果是一个精确掩码一张和原图一样大的黑白图在掩码中像素值为 1 的地方就是 SAM2 认为这个标注框内“物体”的精确轮廓像素值为 0 的地方就是背景。DINOv2是另一种视觉基础模型通过海量无标注数据进行自监督学习学到了非常好的、通用的视觉特征输出是一张特征图这个特征图可以理解为一个压缩版的图片但它不是用 RGB 像素表示而是用更高维的、富含语义信息的特征通道表示但尺寸比原图要小。1有一张标好候选框的原始图片首先将原始图片输入SAM2模块生成精确掩码M再将原图输入DINOv2模块得到全局特征图F其次将原图的候选框的相应坐标和精确掩码M缩小到与F对齐最后根据下面公式加权平均相当于池化操作提取最终的特征向量2一张原始图中有很多示意图根据第一步计算每个候选框的得到所有特征的集合P对向量进行L2归一化3最后将其余图片输入UPN模块此模块会生成若干候选框和每个候选框的置信度每张图片重复1得到相应的特征向量计算其与集合P中向量的相似度余弦相似度即可判断类别。2.图扩散此操作时将候选框建模为节点它们之间的关系建模为边然后在图上进行扩散最终得到每个节点的新得分类似于PageRank算法下面公式表示从候选框 i 到 j 连接的边定义如果节点 i的置信度大于节点 j 的置信度那么边权直接设为 0高得分框被认为是更可靠的候选否则边权设为两个掩码的交集面积这个交集面积越大说明两个框在空间上重叠越多越可能是描述同一物体的不同部分同时这里用的是 SAM2 生成的掩码而不是边界框因为掩码更能精确反映物体的形状重叠面积计算更准确进而对相应框重新生成置信度置信度小的候选框会被淡化着重凸显置信度高的候选框进而解决碎片化。具体步骤每个节点都分配有一个先验权重 w且也就是节点i与其他节点最大的重叠面积反应的是如果它和某个节点重叠很大说明它可能是某个完整物体的一部分并设初始的状态分布为转移矩阵P通过归一化得出可以看作从节点 i 归属于节点 j 的概率将迭代扩散定义为第一项按照图结构P只允许低分高分所以高分节点的分数会越来越高低分节点的分数会降低而第二项是保留一部分权重防止低分节点的分数降为0当时迭代停止最终通过下面公式重新计算置信度。个人认为公式中的可以当作分数传播的方向表示是低分节点到高分节点还是从高分节点流向低分。图扩散本质上的作用类似于NMS非极大值抑制但NMS 仅根据边界框 IoU 和置信度分数做出硬抑制决策如果两个框重叠超过固定阈值则直接删除得分较低的框当对象重叠或边界框不完美时这种二元规则通常会抑制有效检测。帮助点今后在用到NMS时可考虑用图扩散进行替换但必须要有精确掩码为前提。

相关新闻