顶刊TPAMI 2026!Alliance:光谱-空间-频率全感知基础模型

发布时间:2026/5/28 21:34:26

顶刊TPAMI 2026!Alliance:光谱-空间-频率全感知基础模型 点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐论文标题Alliance: All-in-One Spectral-Spatial-Frequency Awareness Foundation Model所属机构北京理工大学、密西西比州立大学、中国科学院空天信息创新研究院论文地址https://ieeexplore.ieee.org/document/11275881项目主页https://github.com/zhaoboyu34526/TPAMI-Alliance-2025论文摘要频域分析能够揭示出在原始像素值中难以观察到的基本图像模式同时还能避免原始图像处理中的冗余信息。尽管最近的遥感基础模型FM在利用空间和光谱信息方面取得了进展但它们在充分利用能够捕捉隐藏特征的频率特性方面存在局限性。现有的那些结合了频率特性的 FM 模型往往难以保持与原始图像内容的联系从而造成了语义上的差距影响后续任务表现。为应对这些挑战我们提出了“频域-空间-频率感知基础模型”Alliance这是一个能够有效整合这三个领域信息的框架。Alliance 引入了多项关键创新1一种受人类视觉认知启发的渐进式频率解码机制该机制在最小化多领域信息差距的同时保留了一般图像信息与频率特征之间的联系从低频到中频再到高频逐步重建以提取在原始像素值中难以观察到的模式2一个三域融合注意力模块它分别处理振幅、相位和频谱空间关系以实现全面的特征整合3通过频率感知的 Cls 标记初始化以及针对频率的特定掩码标记初始化实现频率嵌入从而实现了对不同频率带信息的精细建模。此外为了评估 FM 的泛化能力我们构建了黄河数据集这是一个大规模的多时间序列集合引入了具有挑战性的跨领域任务并为 FM 的评估建立了更严格的标准。在六个下游任务上的大量实验表明Alliance的表现更为出色。性能表现️ 场景分类在 EuroSAT 数据集上Alliance 取得 99.41%的准确率高于主流基础模型。 多标签场景分类在 BigEarthNet-S2数据集上88.59% 的 micro-mAP 和 88.67% 的 macro-mAP在精确率与召回率之间达到了最佳平衡。语义分割在 SegMunich 数据集上Alliance 获得 83.09% 的OA与 52.00% 的 mIoU优于现有的基础模型及基于 SAM 的分割框架。其优势主要体现在边界刻画与细粒度纹理区域上渐进式频率解码能够捕获空间连续性并抑制噪声带来的碎片化效应。变化检测在 OSCD 数据集上Alliance 达到 56.87% 的 F1 分数较最优的 ChangeFormer 和 SpectralGPT 分别提升约 2%。该模型能有效区分真实地物变化与光照、季节差异所造成的伪变化体现出对细微结构变化的高灵敏度。高光谱分类在 多个高光谱数据集中Alliance 在 各项指标均取得最优结果。️跨域多时相分割在所提Yellow River数据集中Alliance 获得 67.20% 的 mIoU超越了最佳的域自适应与域泛化方法。其在时间跨度较大的影像中仍能维持一致的类别边界频率感知表示在应对域偏移时的稳定语义迁移能力。总结展望本文提出 Alliance——一种面向遥感领域的全功能频谱–空间–频率感知基础模型。其核心创新包括① 基于人类视觉认知原理的渐进式频率解码机制从低频到高频逐步重建图像并保持与原始内容的关联② 分别建模振幅、相位及频谱–空间关系的三域融合注意力模块③ 采用专用初始化策略的频率嵌入以实现精细的频率建模。在九个数据集、六个下游任务上的实验表明Alliance 在多场景、多模态及跨域任务中均展现出卓越性能与强大泛化能力。尽管前景广阔当前版本仍基于基础 ViT 主干处理高分辨率影像时计算开销较大后续工作将致力于优化主干结构在保持语义表征能力的同时进一步提升计算效率以更好地支持大规模高分辨率遥感应用。研究团队该工作由北京理工大学信息与电子学院博士研究生赵伯禹、博士后王俊杰、教授李伟、教授陶然密西西比州立大学教授Qian Du以及中国科学院空天信息创新研究院高级工程师杨宏、赵海涛共同合作完成。论文成果《Alliance: All-in-One Spectral-Spatial-Frequency Awareness Foundation Model》发表于计算机视觉、模式识别和人工智能领域顶级期刊——《IEEE Transactions on Pattern Analysis and Machine Intelligence》(影响因子IF18.6).本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关新闻