SwinTransformer 改进:引入用于图像识别的稀疏 MLP:自注意力真的有必要吗?全新的“sMLP”模块,独家创新,附完整教程

发布时间:2026/5/19 22:10:06

SwinTransformer 改进:引入用于图像识别的稀疏 MLP:自注意力真的有必要吗?全新的“sMLP”模块,独家创新,附完整教程 前言本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗,一文带你改进自己模型,科研路上少走弯路。Transformer 在计算机视觉领域异军突起。在现有的基于多层感知器(MLP)的视觉模型基础上,构建了一个无注意力网络,称为sMLPNet。具体而言,作者在标记混合步骤中用一种新型稀疏多层感知器(sMLP)模块替换了多层感知器(MLP)模块。对于二维图像标记,sMLP沿轴向应用一维多层感知器,且参数在行或列之间共享。通过稀疏连接和权重共享,sMLP模块显著减少了模型参数的数量和计算复杂度,避免了困扰类多层感知器模型性能的常见过拟合问题。理论介绍稀疏多层感知机(sMLP)通过稀疏连接和权重共享降低了多层感知机的计算复杂度。在多层感知机(MLP)中,下图深橙色的标记与单个多层感知机层中的所有其他标记进行交互。相比之下,在一个稀疏多层感知机层(b)中,深橙色的标记仅与浅橙色标记的水平标记和垂直标记进行交互。当执行两次稀疏多层感知机时,可以实现与所有其他白色标记的交互。同一行或同一列通常共享同一组线性投影权重,这极大地减少了模型的参数量,防止了过拟合。sMLP 通过行列投影保留了一定的空间结构先验,提供更强的空间建模能力,同时不会引入过高的计算开销。结构如下图所示(摘自论文):理论详解可以参考链接:论文地址代码可在这个链接找到:代码地址训练代码参考和下载:Swin Transformer 实战教程:手把手带你训练自己的数据集(附完整源码+数据集)文章目录前言理论介绍🐴一、实战细节⚡⚡实验结果画图⚡⚡改进模块代码⚡⚡使用教程☑️步骤1☑️步骤2☑️步骤3☑️步骤4🐴二、模型结构分析⚡⚡SwinTransformer 结构分析⚡⚡二次创新实战🐴三、论文常用的评估指标☑️准确率 (Accuracy, ACC)☑️精确率 (Precision)☑️召回率 (Recall)☑️F1分数 (F1 Score)总结🐴一、实战细节⚡⚡实验结果画图画图效果如下,代码可一键运行画图代码:# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :画图.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """importmatplotlib.pyplotaspltimportpandasaspd

相关新闻