
文章核心总结与创新点一、主要内容该文章聚焦于少样本语义分割(Few-Shot Semantic Segmentation, FSS)问题,核心目标是让模型仅通过少量标注样本(支持集),就能对新类别(查询集)进行精准语义分割。文章首先分析了现有FSS方法的关键瓶颈:现有模型过度依赖支持集与查询集之间的像素级对齐,导致对背景干扰、类别外观变化的鲁棒性不足,且难以有效建模类别级别的语义一致性。为解决上述问题,文章提出了一种名为CAGNet(Category-Aware Guidance Network)的新型框架,核心思路是通过“类别感知引导”机制,将支持集的类别语义信息与查询集的视觉特征深度融合:设计类别感知编码模块,从支持集中提取抽象的类别语义表征(而非仅依赖像素级特征),避免局部对齐的局限性;构建跨模态引导融合模块,将类别语义信号与查询集的多尺度视觉特征动态结合,增强目标区域的特征区分度;引入自适应优化策略,针对不同少样本场景(1-shot/5-shot)调整语义引导的强度,提升模型泛化能力。实验部分在标准数据集(PASCAL-5i、COCO-20i)上验证了CAGNet的性能,结果表明该模型在1-shot和5-shot设置下均优于现有SOTA方法,尤其在背景复杂、目标外观多变的场景中表现更稳定。二、创新点类别语义优先的建模思路:突破现有方法“像素级对齐