sVLM 六大研究热点及已开源案例

发布时间:2026/5/20 7:24:09

sVLM 六大研究热点及已开源案例 sVLM 六大未来方向对应“目前已有重大突破的开源案例”整理。目前六个方向都有开源案例但成熟度不一样。其中能效优化、异构算子融合、知识增强蒸馏已经比较接近工程落地动态模态加权、多模态持续学习已有较强研究原型因果对齐仍主要停留在研究框架和任务型验证还没有成为 sVLM 主流训练范式。1. 动态模态加权从“固定融合”走向“动态路由 / MoE 专家选择”代表开源案例开源案例关键突破对 sVLM 的启发MoE-LLaVA使用稀疏 MoE 路由学习多模态交互3B sparse activated 参数即可达到或接近 LLaVA-1.5-7B并在对象幻觉 benchmark 上超过 LLaVA-1.5-13B代码和数据已开放。可把“图像 token / 文本 token / OCR token / 检测框 token”动态分配到不同专家适合小模型做按任务激活。([GitHub][1])Uni-MoE / Uni-MoE 2.0用动态容量 MoE、模态专家和 progressive training 支持图像、文本、语音等十余种跨模态交互。虽然规模偏大但其“模态级专家 动态容量路由”很适合迁移成 sVLM 的轻量 gating。([GitHub][2])DynMM样本级决定采用哪些模态属于早期动态多模态融合框架。更适合做 sVLM 前端策略低置信度才启用视觉大分支高置信度走轻量分类/embedding。([GitHub][3])研究热点判断动态模态加权在 sVLM 中不会只是“视觉权重 0.7、文本权重 0.3”这种静态比例而会发展成输入质量 / 任务类型 / 置信度 / 设备算力 ↓ 动态选择视觉分辨率、视觉 token 数、OCR 分支、检测分支、VLM 分支 ↓ 只激活必要专家或必要模态对你的自动售货柜项目尤其有价值清晰正视图 → YOLOembedding遮挡/包装变化 → OCR/VLM低置信度 → 多模态专家投票。2. 因果对齐从“相关性对齐”走向“反事实 / 因果图 / 去伪相关”代表开源案例开源案例关键突破对 sVLM 的启发CausalVLR面向视觉-语言因果推理的开源 toolbox集成因果发现、因果推理方法覆盖医学报告生成、视频问答等任务。可作为 sVLM 因果对齐研究底座用于分析“背景、品牌、包装颜色、文字”等伪相关因素。([GitHub][4])CaPLCausality-guided Prompt Learning通过 visual granulation 构造 factual / counterfactual granules用因果提示提升细粒度识别。对小模型很实用不直接改大骨干而是在 prompt / adapter 层做因果纠偏。([GitHub][5])COGT用 Causal Graphical Model 建模视觉 token 与文本 token 的依赖关系减少语言生成中的伪相关。更偏 caption / reasoning但可迁移到 sVLM 的结构化输出、报告生成、VQA。([GitHub][6])成熟度判断因果对齐还没有像蒸馏、量化那样形成通用工程 pipeline。目前更适合作为数据增强反事实样本 训练约束去背景、去颜色偏置 评估集包装变化 / 背景变化 / 遮挡变化 推理策略给出因果解释与置信度在零售 SKU 场景中因果对齐的核心价值是防止模型把货架位置、背景颜色、价格牌、相邻商品当成 SKU 本体特征。3. 知识增强蒸馏从“大模型压小模型”走向“跨模态关系 / 领域知识 / 合成数据蒸馏”代表开源案例开源案例关键突破对 sVLM 的启发TinyCLIP通过 affinity mimicking 和 weight inheritance 做跨模态蒸馏在速度与精度之间取得更好平衡。适合把大 CLIP / SigLIP 的图文对齐能力蒸馏到小视觉编码器。([GitHub][7])MobileCLIP / MobileCLIP2使用 captioner 和强 CLIP ensemble 做 multi-modal reinforced training将额外知识存入 reinforced dataset提升移动端 image-text 模型精度。这是“知识增强蒸馏”的强代表不是只蒸 logits而是蒸 teacher caption、teacher embedding、teacher ranking。([Apple Machine Learning Research][8])LLaVA-Med利用 PubMed Central 图文数据和 GPT-4 生成的 instruction data通过 curriculum learning 适配医学领域代码、数据、模型以研究用途开放。说明“领域知识 合成指令 VLM 微调”可以让通用 VLM 迁移到专用行业。([GitHub][9])MiniGPT-Med开源医学视觉语言模型代码支持医学影像任务如报告生成、VQA、疾病识别。适合参考其领域数据组织和医学多任务微调方式。([GitHub][10])研究热点判断sVLM 的知识增强蒸馏会从三条线发展1Teacher VLM → Student sVLM 蒸馏 embedding / attention / answer / reasoning trace 2领域知识 → Prompt / Adapter / 数据 如医学本体、商品类目树、SKU 属性表、包装版本映射 3合成数据 → 小模型指令微调 用 GPT-4V/Qwen-VL 等生成图像问答、属性描述、反事实样本4. 异构算子融合CNN / ViT / MLP / Token Compressor 协同代表开源案例开源案例关键突破对 sVLM 的启发MobileVLM / MobileVLM V2使用 mobile-oriented 架构和 LDPv2 lightweight downsample projector1.7B 模型可达到或接近更大 3B VLM 的 benchmark 表现。LDPv2 思路非常适合边缘 sVLM先压视觉 token再送 LLM降低注意力开销。([GitHub][11])FastVLM引入 FastViTHD 混合视觉编码器减少高分辨率图像 token 和编码时间官方代码开源并支持 Apple 设备推理与量化导出。代表“混合视觉编码器 少 token 高分辨率”的新趋势。([Hugging Face][12])EfficientViT / EfficientViT-SAM面向高效视觉基础模型已被用于 Grounding DINO 1.5 Edge、EfficientViT-SAM 等边缘视觉任务。可作为 sVLM 视觉塔替代方案尤其适合检测、分割、开放词汇识别前端。([GitHub][13])研究热点判断sVLM 的异构算子融合核心不是“堆更多 Transformer”而是CNN / RepConv提取局部纹理、边缘、包装细节 ViT / SigLIP做全局语义与图文对齐 Token Compressor减少视觉 token MLP / QFormer / Resampler桥接视觉与语言空间 LLM只负责语义推理与结构化回答对边缘端部署最重要的是视觉 token 数量。很多 VLM 慢并不是 LLM 本身最慢而是高分辨率图像被切成太多视觉 token 后注意力计算爆炸。5. 能效优化从“能跑”走向“手机 / Jetson / 浏览器 / 本地实时可用”代表开源案例开源案例关键突破对 sVLM 的启发SmolVLM2B 小型 VLM官方称其小、快、内存友好、完全开源并开放模型、数据集、训练 recipe 和工具。是 sVLM 开源路线的典型工程样板。([Hugging Face][14])MiniCPM-V 4.61.3B 参数面向手机/端侧部署通过 mixed 4x/16x visual token compression 和视觉编码计算优化降低视觉编码 FLOPs并开放 iOS/Android/HarmonyOS 边缘部署指引。很适合参考其“视觉 token 压缩 端侧部署”策略。([GitHub][15])MobileVLM面向移动设备的小型 VLMMobileVLM V2 1.7B 在标准 VLM benchmark 上达到或接近更大 3B 模型。适合作为 1B–3B 级 sVLM 工程 baseline。([GitHub][11])FastVLM-0.5B最小版本相比 LLaVA-OneVision-0.5B 有 85× 更快 TTFT 和 3.4× 更小视觉编码器。对“实时拍照问答 / 边缘质检 / 低延迟 VQA”很有参考价值。([Hugging Face][12])llama.cpp / MLC LLM 生态已成为本地 LLM/VLM 量化与跨平台部署的重要工具链MiniCPM-V 文档也提供 llama.cpp 本地运行路径。适合把 sVLM 变成 GGUF / int4 / int8 / Metal / Vulkan / CPU fallback 的工程形态。([MiniCPM][16])研究热点判断未来 sVLM 能效优化会集中在视觉 token 压缩 LLM 量化 KV cache 优化 分辨率动态选择 NPU/DSP/HTP 编译对 Jetson Orin / RK3588 / Qualcomm QNN 这类端侧设备建议优先关注MiniCPM-V / SmolVLM / MobileVLM / FastVLM int4/int8 量化 llama.cpp / MLC / ONNXRuntime / TensorRT / QNN 视觉 token 压缩6. 多模态持续学习从“离线一次训练”走向“增量 SKU / 新包装 / 新场景”代表开源案例开源案例关键突破对 sVLM 的启发PROOF面向 VLM class-incremental learning通过冻结图像/文本编码器并扩展 task-specific projection缓解灾难性遗忘。适合新增类别、新 SKU、新包装版本时只加 projection / adapter而不全量训练。([GitHub][17])MoE-Adapters4CL通过动态扩展 MoE adapters 做 VLM 持续学习并使用 DDAS 自动区分 in-distribution / out-of-distribution 输入同时降低 60% 参数训练负担。很适合“每批新增商品只新增 adapter/expert”的零售场景。([GitHub][18])CLAP4CLIP面向 CLIP 的概率式持续学习框架支持多种 prompt 形式和 class-incremental learning。可用于提升增量学习中的不确定性估计避免新类覆盖旧类。([GitHub][19])Awesome Continual-learning of VLMs系统汇总 VLM 持续学习问题指出跨模态对齐和泛化能力容易受灾难性遗忘影响。可作为持续学习论文/代码索引。([GitHub][20])研究热点判断sVLM 持续学习真正有价值的不是“每次重训模型”而是新类别 / 新包装 / 新场景 ↓ 注册 embedding / prompt / adapter / expert ↓ 旧类别冻结新类别增量学习 ↓ 通过 replay / distillation / OOD router 防止遗忘这和自动售货柜非常匹配新增 10 个 SKU 不应该重新训练整套 VLM而应通过 embedding 注册、LoRA/adapter 增量、少量 hard negative 样本完成更新。六大方向成熟度排序排名方向当前成熟度推荐关注度1能效优化最高已有 SmolVLM、MiniCPM-V、MobileVLM、FastVLM 等开源模型★★★★★2异构算子融合很高视觉 token 压缩、hybrid encoder、LDP 已经有效★★★★★3知识增强蒸馏高TinyCLIP、MobileCLIP、LLaVA-Med 已证明路线有效★★★★★4多模态持续学习中高PROOF、MoE-Adapters4CL、CLAP4CLIP 已有强研究原型★★★★☆5动态模态加权中高MoE-LLaVA、Uni-MoE 证明动态路由有效但小模型工程化仍在发展★★★★☆6因果对齐中等CausalVLR、CaPL 等有研究突破但工业 sVLM pipeline 尚未标准化★★★☆☆最值得重点跟踪的开源项目清单 text 1. SmolVLM 2. MiniCPM-V 3. MobileVLM / MobileVLM V2 4. FastVLM 5. TinyCLIP 6. MobileCLIP / MobileCLIP2 7. MoE-LLaVA 8. Uni-MoE 9. PROOF 10. MoE-Adapters4CL 11. CLAP4CLIP 12. CausalVLR 13. CaPL总结sVLM 的突破点已经从“模型更小”转向“视觉 token 更少、模态动态激活、知识可蒸馏、类别可持续增长、因果更稳健”。参考链接:[1]: https://github.com/PKU-YuanGroup/MoE-LLaVA “GitHub - PKU-YuanGroup/MoE-LLaVA: 〖TMM 2025〗 Mixture-of-Experts for Large Vision-Language Models · GitHub”[2]: https://github.com/HITsz-TMG/Uni-MoE “GitHub - HITsz-TMG/Uni-MoE: Uni-MoE: Lychee’s Large Multimodal Model Family. · GitHub”[3]: https://github.com/zihuixue/DynMM?utm_sourcechatgpt.com “zihuixue/DynMM - Dynamic Multimodal Fusion”[4]: https://github.com/HCPLab-SYSU/CausalVLR “GitHub - HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Vision-Language Causal Reasoning (多模态因果推理开源框架) · GitHub”[5]: https://github.com/GaoMY-521/causality-guided-prompt-learning “GitHub - GaoMY-521/causality-guided-prompt-learning: Causality-guided Prompt Learning for Vision-language Models via Visual Granulation · GitHub”[6]: https://github.com/aimagelab/COGT?utm_sourcechatgpt.com “[ICLR 2025] Causal Graphical Models for Vision-Language …”[7]: https://github.com/wkcn/TinyCLIP “GitHub - wkcn/TinyCLIP: [ICCV2023] TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance · GitHub”[8]: https://machinelearning.apple.com/research/mobileclip “MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training - Apple Machine Learning Research”[9]: https://github.com/microsoft/LLaVA-Med “GitHub - microsoft/LLaVA-Med: Large Language-and-Vision Assistant for Biomedicine, built towards multimodal GPT-4 level capabilities. · GitHub”[10]: https://github.com/Vision-CAIR/MiniGPT-Med “GitHub - Vision-CAIR/MiniGPT-Med: Open-sourced code of MiniGPT-Med · GitHub”[11]: https://github.com/Meituan-AutoML/MobileVLM “GitHub - Meituan-AutoML/MobileVLM: Strong and Open Vision Language Assistant for Mobile Devices · GitHub”[12]: https://huggingface.co/apple/FastVLM-0.5B “apple/FastVLM-0.5B · Hugging Face”[13]: https://github.com/mit-han-lab/efficientvit?utm_sourcechatgpt.com “mit-han-lab/efficientvit: Efficient vision foundation models …”[14]: https://huggingface.co/blog/smolvlm “SmolVLM - small yet mighty Vision Language Model”[15]: https://github.com/OpenBMB/MiniCPM-V “GitHub - OpenBMB/MiniCPM-V: A Pocket-Sized MLLM for Ultra-Efficient Image and Video Understanding on Your Phone · GitHub”[16]: https://minicpm-o.readthedocs.io/en/latest/run_locally/llama.cpp.html?utm_sourcechatgpt.com “llama.cpp - MiniCPM-V o Cookbook”[17]: https://github.com/LAMDA-CL/PROOF “GitHub - LAMDA-CL/PROOF: Learning without Forgetting for Vision-Language Models (TPAMI 2025) · GitHub”[18]: https://github.com/JiazuoYu/MoE-Adapters4CL “GitHub - JiazuoYu/MoE-Adapters4CL: Code for paper “MoE-Adapters” CVPR2024 and “MoE-Adapters” TPAMI2025 · GitHub”[19]: https://github.com/srvCodes/clap4clip “GitHub - srvCodes/clap4clip: Code for our NeurIPS´24 paper · GitHub”[20]: https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models?utm_sourcechatgpt.com “YuyangSunshine/Awesome-Continual-learning-of-Vision- …”

相关新闻