论文阅读：FSOD-VFM: FEW-SHOT OBJECT DETECTION WITH VISION FOUNDATION MODELS AND GRAPH DIFFUSION-尧图网站设计

FSOD-VFM利用视觉基础模型和图形扩散进行少样本目标检测创新点1.提出了FSOD-VFM基础视觉模型其集成了三种先进方法进行少样本预测包括用于生成与类别无关的边界框的通用提议网络UPN、用于精确掩膜提取的SAM2、用于高效适应新对象识别的DINOv2特征实现了无需额外训练的检测。2.设计了一种基于图扩散的置信度重加权机制可以解决UPN生成的边界框过于碎片化的问题。重点介绍1.构建FSOD-VFM图 1FSOD-VFM 概述图。方法集成了 UPN、SAM2 和 DINOv2 来生成边界框提案并执行查询匹配构建一个图并执行图扩散以减轻过度碎片过度碎片化的盒子区域在图扩散后显得更加透明表明它们的置信度已经下降。UPN一个专门用来生成类别无关的候选框的模型其核心目标是生成尽可能多的、覆盖各种可能物体的候选框而不是精确地框出完整物体因此会产生各种大小的候选框也有可能大的覆盖掉小的过度碎片化难以精确识别。SAM2是一个极其强大的视觉基础模型能够根据任何提示比如一个点、一个框对图像中任何物体进行精确分割生成的结果是一个精确掩码一张和原图一样大的黑白图在掩码中像素值为 1 的地方就是 SAM2 认为这个标注框内“物体”的精确轮廓像素值为 0 的地方就是背景。DINOv2是另一种视觉基础模型通过海量无标注数据进行自监督学习学到了非常好的、通用的视觉特征输出是一张特征图这个特征图可以理解为一个压缩版的图片但它不是用 RGB 像素表示而是用更高维的、富含语义信息的特征通道表示但尺寸比原图要小。1有一张标好候选框的原始图片首先将原始图片输入SAM2模块生成精确掩码M再将原图输入DINOv2模块得到全局特征图F其次将原图的候选框的相应坐标和精确掩码M缩小到与F对齐最后根据下面公式加权平均相当于池化操作提取最终的特征向量2一张原始图中有很多示意图根据第一步计算每个候选框的得到所有特征的集合P对向量进行L2归一化3最后将其余图片输入UPN模块此模块会生成若干候选框和每个候选框的置信度每张图片重复1得到相应的特征向量计算其与集合P中向量的相似度余弦相似度即可判断类别。2.图扩散此操作时将候选框建模为节点它们之间的关系建模为边然后在图上进行扩散最终得到每个节点的新得分类似于PageRank算法下面公式表示从候选框 i 到 j 连接的边定义如果节点 i的置信度大于节点 j 的置信度那么边权直接设为 0高得分框被认为是更可靠的候选否则边权设为两个掩码的交集面积这个交集面积越大说明两个框在空间上重叠越多越可能是描述同一物体的不同部分同时这里用的是 SAM2 生成的掩码而不是边界框因为掩码更能精确反映物体的形状重叠面积计算更准确进而对相应框重新生成置信度置信度小的候选框会被淡化着重凸显置信度高的候选框进而解决碎片化。具体步骤每个节点都分配有一个先验权重 w且也就是节点i与其他节点最大的重叠面积反应的是如果它和某个节点重叠很大说明它可能是某个完整物体的一部分并设初始的状态分布为转移矩阵P通过归一化得出可以看作从节点 i 归属于节点 j 的概率将迭代扩散定义为第一项按照图结构P只允许低分高分所以高分节点的分数会越来越高低分节点的分数会降低而第二项是保留一部分权重防止低分节点的分数降为0当时迭代停止最终通过下面公式重新计算置信度。个人认为公式中的可以当作分数传播的方向表示是低分节点到高分节点还是从高分节点流向低分。图扩散本质上的作用类似于NMS非极大值抑制但NMS 仅根据边界框 IoU 和置信度分数做出硬抑制决策如果两个框重叠超过固定阈值则直接删除得分较低的框当对象重叠或边界框不完美时这种二元规则通常会抑制有效检测。帮助点今后在用到NMS时可考虑用图扩散进行替换但必须要有精确掩码为前提。

论文阅读：FSOD-VFM: FEW-SHOT OBJECT DETECTION WITH VISION FOUNDATION MODELS AND GRAPH DIFFUSION

相关新闻

Nanbeige 4.1-3B实战落地：将像素终端嵌入企业内部Wiki作为智能知识助手

大模型安全研究论文整理 2026年版

迷你世界UGC3.0脚本触发器事件管理(对象)

遗传算法第二部分：从流程复述到工程可控演化

DLP3010芯片组应用实战：从光学设计到热管理的系统级避坑指南

计算机毕业设计之jsp社区居家养老服务管理信息系统

MSPM0Lx22x SPI时序与低功耗模式深度解析及工程实践

倍福嵌入式控制器PLC系列选型与应用场景解析

考研数据结构串与KMP算法通关秘籍：从暴力匹配到nextval数组的实战精讲（C语言视角）

nRF Sniffer 在Wireshark中的高效过滤与实战技巧

Java企业为什么需要AI框架

YOLO26 改进 - 特征融合 | STFFM空间时间特征融合模块，强化时空互补、抑制噪声，助力小目标检测高效涨点

STM32F411RE与MCP3551高精度ADC应用指南

【RT-DETR涨点改进】26 跨平台SDK封装：从Python原型到C++生产级部署

【RT-DETR涨点改进】27 RT-DETR推理加速：从TensorRT到ONNX Runtime的零开销切换

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战