
2026年视觉与学习青年学者研讨会VALSE 2026于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述可能与报告人的原意有所不同敬请读者理解如报告人认为文章与自己报告的内容差别较大可以联系公众号删除。本文基于左旺孟教授的VALSE 2026年度进展评述报告《底层视觉基础模型从单任务到通用模型》进行整理得到。本报告回顾了视觉底层模型的发展详细介绍了底层视觉的研究背景、相关研究现状以及发展方向。本推文的作者为黄忠祥审核为龚裕涛与王一鸣。一、报告人介绍左旺孟哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE T-PAMI、IJCV及IEEE Trans.等期刊上发表论文多篇。曾任ICCV、CVPR、ECCV等会议领域主席现任IEEE TPAMI、TIP、中国科学信息科学等期刊编委。报告的目录二、底层视觉模型介绍底层视觉模型与我们熟悉的基础视觉模型有所不同。它的核心区别在于底层视觉不关注图像中是什么物体、包含什么语义而只专注于画质修复、画质改造、像素级变换等任务处理的是像素、纹理、清晰度、噪声、光影这类最基础的视觉信息。与之相对的是高层视觉如猫/狗识别、人体检测、物体分割、图像分类和语义理解。三、底层视觉任务分类多种底层视觉任务示例底层视觉的任务主要分为以下四大类。(1)图像复原包括图像去噪去除照片中的颗粒噪点、图像去模糊消除因手抖或运动导致的模糊、超分辨率将小图放大为高清大图且不模糊、去雾/去霾让雾天灰蒙蒙的照片变通透、去雨/去雪去除画面中的雨滴、雪花、去反光/倒影消除玻璃反光、水面倒影、图像划痕修复修复老照片的破损与划痕、压缩伪影去除修复微信压缩、JPG等导致的模糊块等。(2)图像增强包括低光图像增强提亮暗光照片并降噪、还原细节、亮度/对比度增强自动调整灰暗画面使其更加通透、色彩校正/白平衡纠正照片偏黄、偏蓝等色偏还原真实色彩、高光阴影修复恢复过曝亮部与欠曝暗部的细节、锐化增强强化发虚画面的边缘与纹理等。(3)图像风格化与画质重塑包括人像美颜、滤镜风格转换写实转油画、动漫、二次元等、纹理增强、皮肤质感优化、黑白照片上色为老黑白照片自动赋予色彩等。(4)底层几何/物理特征估计包括深度估计从单张图推算每个像素到镜头的距离、法线估计估计物体表面的凹凸朝向、边缘检测、纹理提取、显著性检测标出画面中最吸引人的区域。四、从单任务走向通用模型的动因在单任务范式下每个任务都需单独设计模型和训练去噪用DnCNN/Real-ESRGAN超分用SRCNN/RCAN去雾用AOD-Net低光增强用Retinex系列处理流程极为复杂。这种模式带来了四大痛点。模型极度碎片化每个任务都需要一套独立的网络结构和训练策略研究者不得不做重复工作工程上也要维护几十个模型数据利用率极低各任务的数据只能独立使用跨任务无法共享尤其对去反光、去雨滴等小众任务而言数据匮乏导致效果不佳泛化能力弱只学习单一的退化类型一旦换一种噪声或模糊模式就容易失效在真实复杂场景下鲁棒性差无法统一推理与部署手机、端侧、云端需部署多套底层视觉模型显存和计算资源占用极高。正因为这些瓶颈底层视觉的发展必须向一个模型处理所有底层视觉任务的方向发展即构建底层视觉基础模型五、底层视觉模型研究现状当前底层视觉模型正从单任务例如CNN专用模型快速转向多任务统一基础模型主要是以Transformer为主核心进展是提示驱动、大规模多任务训练、模型缩放并开始融合语言交互与轻量化部署但语义对齐、真实泛化、效率成本仍是核心瓶颈。近年来底层视觉模型的研究现状总结如下。1传统单任务范式2015–2020以CNN为主U-Net/ResNet/RCAN等采用单任务专用设计。典型应用包括去噪DnCNN、超分SRCNN、去雾AOD-Net、低光RetinexNet。其缺点是模型碎片化、数据不共享、泛化弱、部署成本高。2多任务统一范式2021–2024大体架构为共享骨干任务分支/适配器覆盖3–5类任务。典型代表是DASR、AirNet、ProRes、PromptIR等可处理超分、去模糊、去噪等复原类任务但主要局限于此难以扩展至增强、风格化及特征提取。3通用底层视觉范式2024–至今采用核心框架VPIP (Visual Prompt Image Processing)将多样的底层视觉任务统一建模为图像到图像的翻译问题通过提示对源图目标图替代传统任务分支使单一模型能够处理数十种后续已扩展至上百种底层任务覆盖复原、增强、风格化与特征提取。代表模型与技术路线分化主要有以下几种。VPIP路线GenLV系列是直接基于VPIP框架训练出的通用模型实例。该系列以X‑RestormerU‑Net双轴注意力为通用骨干设有Base、Large、Huge等多规模版本并已验证了模型越大、任务越多性能越强的规模化规律生成式先验路线SUPIR利用预训练的文本到图像扩散模型如Stable Diffusion所蕴含的视觉知识通过文本提示指导图像复原HYPIR则在此基础上结合GAN实现单步前馈推理大幅提升速度。六、底层视觉模型未来展望左旺孟教授指出未来的底层视觉模型需要与其他模态深度协同。视觉作为人类和许多动物赖以生存的基础能力不仅在多模态理解和具身智能中扮演着不可或缺的角色其自身同样具备向基础模型发展的必要性和重要性。其中与AI结合形成AI Agent被视作最具发展潜力的方向之一。