
一、本文介绍本文记录的是利用Mona多认知视觉适配器模块优化YOLOv13的目标检测网络模型。Mona(Multi-cognitive Visual Adapter)通过缩放归一化输入优化、多尺度深度卷积视觉认知与多层残差融合结合,构建视觉友好的轻量适配结构,实现预训练知识向下游任务的高效迁移。本文利用Mona适配器,先通过可学习缩放与层归一化稳定特征分布,再以3×3/5×5/7×7多路深度卷积构建多尺度视觉认知,经1×1卷积聚合与残差连接保留原始信息,对各类视觉任务的特征进行针对性强化、修正线性适配器的视觉建模缺陷,抑制无效特征干扰,提升目标检测、实例分割、语义分割等复杂视觉任务的精度与训练效率。专栏目录:YOLOv13改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进专栏地址:YOLOv13改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!文章目录一、本文介绍二、Mona介绍2.1 设计出发点2.2 模块结构2.3 模块优势三、Mona的实现代码四、创新模块4.1 改进点1⭐4.2 改进点2⭐五、添加步骤5.1 修改一5.2 修改二5.3 修改三六、yaml模型文件6.1 模型改进版本16.2 模型改进版本2⭐七、成功运行结果二、Mona介绍2.1 设计出发点现有视觉适配器(Adapter)沿用NLP线性结构,对视觉2D信号适配差;单一感受野无法实现多尺度视觉认知,且特征分布偏移导致迁移效果差,始终无法超越全微调(Full Fine-tuning)上限。因此提出多认知视觉适配器 Mona,专为视觉任务重设计,突破全微调性能天花板。2.2 模块结构Mona(Multi-cognitive Visual Adapter)结构:缩放归一化输入:LayerNorm + 可学习缩放系数,稳定输入特征分布;多尺度深度卷积认知:3×3、5×5、7×7多路深度卷积,并行提取多尺度视觉特征;特征聚合与残差:1×1卷积融合 + 多支路残差连接,保留原始信息并增强表达;轻量升维投影:GeLU激活 + 上下投影,以极少参数完成视觉知识迁移。2.3 模块优势视觉友好强适配