
1. 开放词汇学习打破封闭集枷锁让AI“看懂”开放世界在计算机视觉领域摸爬滚打了十几年我见证了一个核心矛盾的演变我们训练的模型越来越强大在COCO、ImageNet这些标准数据集上刷榜如探囊取物但一到真实世界面对层出不穷、标注成本高昂的新物体模型往往就“傻眼”了。问题的根源在于我们过去一直在“封闭集”的假设下工作——模型只能识别训练时见过的、有明确标注的那几十上百个类别。这就像只让一个学生反复背诵一本固定词典然后指望他能读懂天下所有文章显然不现实。开放词汇学习正是为了解决这个根本性矛盾而生的技术范式。它的核心思想非常直观不再将模型的能力局限在有限的训练类别上而是让它能够理解和响应一个开放的、由自然语言定义的词汇世界。想象一下你给模型看一张公园的照片它不仅能认出训练过的“狗”、“树”还能根据你的文本指令找出“正在飞盘的金毛犬”、“长着红色浆果的灌木”甚至“生锈的长椅”。这种能力正是迈向通用视觉智能的关键一步。这一切得以实现离不开视觉语言模型的突破性进展尤其是像CLIP、ALIGN这样的模型。它们通过在数亿甚至数十亿的图像-文本对上做对比学习学会了将图像内容和自然语言描述在同一个语义空间中对齐。简单来说CLIP让模型明白了“猫”这个词的文本特征应该和一张猫的图片的视觉特征很接近。开放词汇学习本质上就是巧妙地“借用”或“迁移”这种对齐能力赋能给下游的检测、分割等具体视觉任务。所以开放词汇学习到底能做什么它能让一个只在“猫”、“狗”、“汽车”上训练过的检测模型在推理时直接识别出“考拉”、“电动滑板车”或“无人机”。它适合任何希望模型能动态适应新概念、减少数据标注依赖的场景从内容审核、机器人交互到自动驾驶的环境感知潜力巨大。接下来我将带你深入这个领域拆解其技术脉络、实操要点与未来挑战。2. 核心概念辨析从零样本到开放词汇在深入技术细节前我们必须厘清几个容易混淆的概念。很多刚接触这个领域的朋友会问这不就是零样本学习吗和开放集识别又有什么区别理解这些差异是把握开放词汇学习独特价值的前提。2.1 零样本学习 vs. 开放词汇学习零样本学习是开放词汇学习的“前身”。它的目标也是识别训练时未见过的类别。经典做法是为每个类别包括未见过的预定义一个语义嵌入比如通过Word2Vec或GloVe得到的词向量。训练时模型学习将视觉特征映射到这个语义空间。推理时对于新物体模型计算其视觉特征与所有类别语义嵌入的相似度来分类。注意ZSL的一个关键限制是它通常将新类别物体在训练时视为“背景”来处理。这导致模型缺乏对新类别视觉特征的正面学习严重依赖预定义的、静态的词向量泛化能力有限尤其是在类别语义相似或视觉特征复杂时性能往往不尽如人意。开放词汇学习则可以看作是ZSL的“增强版”。它最大的突破在于允许在训练时引入额外的、弱监督的视觉相关语言数据比如图像描述。这些描述中天然包含了大量未标注类别的名词、属性甚至动作。通过视觉语言模型模型能直接学习图像区域与自由文本之间的对齐关系。因此OVL不仅拥有ZSL的推理新类别的能力还在训练过程中通过海量图文对间接“见识”了更丰富的视觉-语言关联其知识库从有限的标注类别扩展到了近乎无限的网络文本空间。2.2 开放集识别与开放世界学习这两个概念也常被提及它们与OVL的目标有本质不同。开放集识别核心任务是“识别已知拒绝未知”。模型在测试时遇到训练集之外的类别目标是将它们标记为“未知”而不是将其分类到某个已知或新的具体类别。它不要求对未知物体做进一步区分。开放世界学习这是一个更长期的、动态的过程。它要求模型不仅能检测出未知物体还能在获得人类对这些新物体的标注后增量式地学习这些新类别同时不忘掉旧知识。它结合了开放集识别和增量学习。为了方便理解我画了一个简单的对比图用文字描述想象一张图里有几个新形状比如五角星、六边形。在开放集/开放世界设定下模型只需要把它们框出来并打上“未知”标签。在零样本设定下模型需要把它们正确分类为“五角星”和“六边形”。而在开放词汇设定下模型不仅能分类还能利用从“星星”、“多边形”等大量相关文本中学到的知识更鲁棒地完成分类。2.3 任务、数据集与评价指标开放词汇学习主要应用于需要密集预测的任务核心任务开放词汇目标检测在图像中定位并分类任意文本描述的物体。开放词汇图像分割进一步细分为语义分割每个像素分类、实例分割区分不同个体和全景分割两者结合。开放词汇视频理解在视频中跟踪和分割开放类别物体。开放词汇3D场景理解对点云等3D数据进行开放类别分割与检测。常用数据集检测LVIS大词汇量实例分割数据集1200类别是主要测试场COCO80类常作为基础训练集。更新的v3Det包含了超过13,000个类别挑战性极大。分割除了COCO、LVIS还有ADE20K场景解析、PASCAL Context等。评估指标基本沿用传统任务的指标但需分别报告在基类和新类上的性能。例如检测用mAP语义分割用mIoU。核心是看模型在新类上的表现这直接体现了其开放词汇能力。3. 技术基石从封闭集模型到开放词汇的桥梁要构建开放词汇系统我们需要两块基石一个是强大的、能处理具体任务的视觉模型骨架另一个是提供了开放语义知识的视觉语言模型。如何将二者有效结合是各类方法的出发点。3.1 视觉模型骨架像素基与查询基当前主流的视觉模型架构可以分为两大类它们决定了后续开放词汇策略的具体实现方式。像素基方法是更经典的设计。对于检测代表性工作如Faster R-CNN这类两阶段检测器先由区域提议网络生成候选框再对每个框内的区域进行特征提取和分类。对于分割全卷积网络将分割视为像素级的分类问题。这类方法的优势是结构清晰但区域特征与全局图像特征的交互可能不够充分。查询基方法随着Transformer的兴起而成为主流。以DETR及其变种为代表它用一组可学习的“对象查询”向量通过交叉注意力机制直接从图像特征中解码出检测框或分割掩码。这种架构摒弃了手工设计的锚框实现了端到端的优化。在分割领域MaskFormer、Mask2Former等工作进一步展示了基于查询的掩码分类范式可以统一处理各种分割任务。查询基架构更灵活特征交互更全局正逐渐成为开放词汇任务的主流骨架。3.2 视觉语言模型知识的源泉CLIP的成功范式是开放词汇学习的催化剂。其核心是双塔结构一个图像编码器和一个文本编码器通过对比学习使得匹配的图文对在特征空间中被拉近不匹配的被推远。经过海量数据训练后CLIP的文本编码器能够为任意单词或短语生成有意义的特征表示而图像编码器产生的视觉特征也与该语义空间对齐。实操心得直接使用CLIP等VLM的预训练权重作为初始化或固定特征提取器是绝大多数开放词汇方法的起点。关键在于如何将下游任务检测/分割中提取的区域级视觉特征与VLM文本编码器产生的类别文本特征进行有效的相似度计算从而替代传统的、固定参数的分类器。一个通用的元架构如下图所示文字描述输入图像经过一个视觉主干网络如ResNet、ViT提取特征。对于每个检测框或分割掩码提案通过RoIAlign或掩码池化得到区域视觉特征。同时将候选类别名称如“猫”、“狗”、“斑马”构造成提示句如“一张照片”送入冻结的CLIP文本编码器得到每个类别的文本特征。最后计算每个区域视觉特征与所有类别文本特征的余弦相似度或点积作为分类得分。得分最高的类别即为预测结果。4. 开放词汇目标检测的核心技术路径开放词汇目标检测是研究最深入的子领域其方法百花齐放但主要可以归纳为以下几类技术路径。4.1 知识蒸馏让“学生”模仿“老师”这是最直观的思路之一用一个强大的、具有开放词汇能力的VLM如CLIP作为“教师”来指导一个专精于检测的“学生”模型。代表工作ViLD提供了一个经典范式。它采用两阶段检测器如Mask R-CNN。训练时除了常规的检测损失它增加了两个蒸馏损失视觉到视觉蒸馏将RPN提出的区域图像块裁剪出来送入CLIP的图像编码器得到“教师”视觉特征。同时检测器从同一区域提取“学生”视觉特征。通过最小化二者差异让学生模型学会提取CLIP风格的、与语义对齐的区域特征。文本到分类器蒸馏直接用CLIP文本编码器为所有类别基类新类生成文本特征作为分类器的权重。检测器的分类头不再随机初始化而是向这些文本权重对齐。我的经验知识蒸馏方法实现相对直接能有效将VLM的语义知识注入检测器。但它的性能上限受限于教师模型CLIP本身的能力。如果CLIP对某些视觉概念理解有偏差学生模型也很难超越。此外蒸馏过程可能损失一些细粒度的空间定位信息。4.2 区域-文本预训练从海量图文对中学习对齐既然CLIP是在图像-文本对上训练的那何不更进一步直接在区域-文本的对应关系上进行预训练这就是区域-文本预训练的思路。代表工作OVR-CNN是开创者。它首先在图像-描述数据上预训练一个模型学习将图像区域特征映射到描述中名词的语义空间。然后在这个预训练模型的基础上用标准检测数据只有基类框标注进行微调。由于预训练阶段模型已经接触过海量词汇微调后便具备了开放词汇能力。GLIP系列将这一思想推向高潮。它统一了目标检测和短语定位任务将检测框与句子中的名词短语进行对齐。通过在大规模图文对上进行这种自监督式的预训练自动生成框-短语对应关系GLIP学到的区域-文本对齐能力极其强大在多个开放词汇检测基准上取得了领先效果。注意事项这类方法通常需要巨大的计算资源和海量的图文对数据。对于个人研究者或小团队从头开始预训练一个GLIP级别的模型是不现实的。更常见的做法是利用别人预训练好的模型权重在自己的下游任务数据上进行微调。4.3 提示工程与区域-文本对齐提示工程在NLP和图像分类中已被证明能有效激发大模型潜力。在OVD中提示主要用于优化文本端的特征表示。核心思想与其简单地将类别名“cat”输入文本编码器不如构建更丰富的提示如“a photo of a cat”、“a fluffy cat sitting on a sofa”。通过学习可训练的提示上下文向量可以让生成的类别文本特征更适应下游检测任务。代表工作DetPro提出了一种可学习的提示模板并为每个类别学习特定的上下文向量。同时它摒弃了传统的“背景”类转而让负样本背景区域与所有类别文本特征保持等距这被证明能提升新类别的区分度。区域-文本对齐则更侧重于在训练过程中建立图像区域特征与语言特征之间的精细匹配。例如VLDet将一幅图像的所有候选区域视为一个集合将图像的描述文本分词后视为另一个集合然后用匈牙利匹配算法来寻找最优的区域-单词对应关系以此作为监督信号。这种方法迫使模型在训练基类时就学习更精准的细粒度对齐能力。4.4 利用更平衡的数据与自训练长尾分布是视觉任务的通病在开放词汇场景下新类别往往也是罕见类别。如何提升模型对“稀有”和“未见”类别的识别能力数据增强视角Detic提供了一个巧妙的思路。它利用图像级标签数据如ImageNet-21K这些数据类别极其丰富。在训练时对于一张只有图像标签“斑马”的图片Detic选择RPN产生的最大区域提案作为该类别对应的正样本区域从而用图像分类数据来监督检测器的分类头。这大大丰富了模型见过的视觉概念。自训练与伪标签这是目前推动SOTA性能的关键技术。以OWLv2为例其流程是1) 用一个已训练好的开放词汇检测器在超大规模的网络图像数据如WebLI上生成海量的伪边界框标注2) 用这些伪标注数据预训练一个新的检测器3) 在目标数据集如LVIS上进行微调。通过这种“数据飞轮”模型能接触到远超人工标注范围的视觉多样性能力得到极大提升。生成模型助力扩散模型等生成式AI也能用于数据扩充。例如可以针对稀有类别生成高质量的图像-掩码对然后将这些合成数据加入训练集以平衡长尾分布。5. 开放词汇图像分割的独特挑战与方法分割任务要求像素级或实例级的精确预测这比检测框级别的任务更具挑战性。开放词汇分割不仅要识别“是什么”还要精确指出“在哪里”。5.1 利用VLM的识别能力进行密集预测既然分割可以看作密集分类一个自然的想法是将CLIP的语义能力直接迁移到每个像素上。早期工作LSeg就是这么做的图像经过一个视觉编码器得到密集特征图同时将类别名称输入CLIP文本编码器得到文本特征。然后计算每个像素位置的特征与所有文本特征的相似度得到像素级的分类得分图。这种方法简单有效但分割掩码的质量严重依赖视觉主干提取的特征且缺乏显式的实例区分能力。后续的改进主要集中在如何更好地融合视觉与语言特征以及如何设计更高效的架构。例如ZegFormer采用了“解耦”策略一个分支负责生成类别无关的掩码提案即“哪里是物体”另一个分支利用CLIP的特征对这些掩码进行分类即“物体是什么”。MaskCLIP则尝试在预训练的CLIP视觉编码器中插入注意力模块使其能直接输出更适应分割任务的密集特征。5.2 从描述数据中学习与无需掩码标注的训练与检测类似图像描述数据是弱监督信号的重要来源。OpenSeg等方法通过在描述数据上训练模型使其学会将图像区域与描述中的名词进行关联。例如通过对比学习让模型学习到图像中“狗”所在的区域特征应该与句子中“dog”这个词的文本特征相近。一个更有趣的方向是完全无需像素级标注的训练。GroupViT是代表性工作。它只使用图像-文本对进行训练。模型通过自注意力机制将图像块分组并学习让这些组的特征与整个图像的文本描述特征对齐。在推理时通过传递性模型可以将语义相似的像素自动分组实现零样本语义分割。这类方法彻底摆脱了对昂贵掩码标注的依赖是通向更通用视觉模型的重要一步。5.3 统一框架与扩散模型的融合实际应用中我们往往希望一个模型能同时处理语义分割、实例分割等多种任务。X-Decoder和FreeSeg等框架朝这个方向努力。它们设计了一个基于查询的统一架构通过不同的任务提示如“语义分割”、“实例分割”让同一个模型处理多种开放词汇分割任务。这种设计极大地提高了模型的实用性和灵活性。扩散模型的兴起为开放词汇分割提供了新工具。ODISE发现扩散模型在去噪过程中产生的中间特征蕴含了丰富的、与语言对齐的语义信息。它利用这些特征作为分割解码器的输入取得了出色的开放词汇全景分割效果。另一种思路是利用扩散模型强大的生成能力为稀有或新类别生成带掩码的合成数据用于增强训练。6. 迈向动态与三维视频与3D场景的开放词汇理解现实世界是动态和立体的开放词汇学习也必须向视频和3D领域拓展。6.1 开放词汇视频理解视频带来了时序维度核心挑战是如何利用VLM处理动态信息并实现跨帧的一致性理解。对于视频动作识别主流方法是“CLIP 时序建模”。例如ActionCLIP在冻结的CLIP图像编码器后添加一个轻量的时序融合模块如Transformer层对逐帧提取的特征进行时序建模并与动作类别的文本描述进行匹配。更高效的方法如ViFi-CLIP发现简单的时序池化如平均池化加上适当的微调就能取得很好的效果关键在于如何设计针对视频的文本提示。对于更复杂的视频实例分割同时跟踪并分割物体挑战更大。OVTrack等工作将开放词汇检测器扩展到视频域利用跟踪头关联跨帧的检测结果并使用CLIP进行类别识别。它们通常需要在带有大量类别标签的视频数据如伪标注的LVIS视频上进行训练以学习时序一致性。6.2 开放词汇3D场景理解3D点云数据与2D图像有本质不同缺乏纹理、不规则、且标注成本极高。开放词汇3D理解的核心思路是借助2D VLM的知识。2D-3D知识迁移是主流方法。PointCLIP提出将3D点云投影到多个2D深度图或渲染图上然后将这些2D视图送入CLIP图像编码器提取特征最后与文本特征匹配。这种方法简单但投影过程会损失3D几何信息。特征对齐是更优的路径。ULIP收集了点云图像文本三元组数据。由于CLIP已经对齐了图像和文本ULIP只需要训练一个3D点云编码器使其特征与CLIP的图像特征对齐从而间接地将3D特征嵌入到与文本对齐的语义空间中。OpenScene则走得更远它通过多视角将2D图像的CLIP特征反投影到3D点云上为每个3D点赋予丰富的语义特征从而实现3D场景的开放词汇语义分割。3D开放词汇检测则借鉴了2D检测的思想。例如OV-3DET将3D检测解耦为定位和识别。定位模块使用3D数据训练识别模块则通过将3D区域特征与CLIP文本特征对齐来实现开放词汇。这些工作正努力缩小3D与2D在开放世界理解能力上的差距。7. 实操要点、常见问题与未来展望经过上面的梳理你可能已经摩拳擦掌想动手试试了。这里我结合自己的经验分享一些实操中的关键点和常见坑。7.1 实操要点与技巧基类过拟合问题这是开放词汇学习中最常见的问题。模型在基类上表现很好但一到新类就大幅下降。对策除了使用更强的VLM可以在训练时引入“类别无关”的对象性损失鼓励模型关注物体的通用特征如形状、边界而非特定类别的语义特征。F-VLM等工作发现冻结CLIP视觉主干只训练检测头能在一定程度上缓解此问题因为冻结的主干保留了更通用的表征。提示工程不要小看文本提示的构建。对于检测/分割任务简单的“a photo of a [CLASS]”可能不够。尝试加入上下文如“a [CLASS] in the scene”。更好的方式是像DetPro那样学习可训练的提示上下文。对于细粒度类别使用属性描述如“a small, red, round apple”可能会有奇效。负样本处理传统检测器有明确的“背景”类。在开放词汇中背景是“不属于任何目标类别的区域”。一种有效策略是使用“无对象”或“背景”的文本嵌入作为一个特殊的负类但更优的做法是让负样本区域与所有正类文本特征的距离尽可能远且均匀这能避免模型将新类偏向性地预测为某个特定的基类。数据 pipeline 构建如果你想尝试自训练或利用网络数据构建一个高效可靠的伪标签生成pipeline至关重要。这包括使用高质量的教师模型、设计过滤噪声伪标签的规则如根据置信度阈值、边界框重叠度等、以及可能的多轮迭代训练。7.2 常见问题排查问题模型对新类别完全没反应只检测基类。排查首先检查数据流。确保在训练时你的文本编码器确实接收到了新类别的名称尽管没有对应的标注框。其次检查损失函数。开放词汇分类损失如区域特征与文本特征的对比损失是否在正常回传梯度基类的检测损失是否过强压制了新类的学习问题模型能检测出新类别但定位框不准或分割质量差。排查这通常是区域提议网络或掩码生成头的问题。开放词汇分类头只负责“认是什么”而“找在哪里”的能力依赖于模型的基础定位能力。确保你的RPN或查询式检测器是在一个包含多样物体的数据集如COCO上充分预训练的。可以考虑使用类别无关的定位损失进行加强。问题推理速度慢。排查瓶颈通常在CLIP文本编码器。每次推理都需要为所有候选类别计算一次文本特征。解决方案1) 预先计算所有常见类别的文本特征并缓存2) 对类别列表进行剪枝或分组3) 使用更轻量化的文本编码器但会牺牲性能。7.3 挑战与未来方向尽管发展迅速开放词汇学习仍面临诸多挑战计算成本结合大模型VLM、LLM进行训练或推理成本高昂。如何设计更高效的适配器或知识蒸馏方法是走向实用的关键。评测基准现有数据集仍不够“开放”。我们需要更具挑战性、涵盖更广、更具长尾特性的基准以及更能反映真实应用场景的评测指标如对相似类别的区分度。统一模型目前很多方法是为特定任务检测或分割和特定数据集量身定制的。开发一个能统一处理多种视觉任务、并在多个开放词汇基准上都有良好表现的通用模型是未来的重要目标。与大语言模型结合VLM的词汇和语义理解能力仍有局限。未来如何与知识更丰富、推理能力更强的LLM结合让模型不仅能识别物体还能理解复杂关系、属性和场景是实现真正场景理解的关键。例如让模型根据“找到适合放在客厅角落、用来放书的家具”这样的复杂指令进行定位。动态与增量学习真实世界是不断变化的。如何让开放词汇模型在不遗忘旧知识的前提下持续地从新数据中学习新概念即结合开放世界学习与增量学习是一个极具实用价值的方向。从我个人的实践来看开放词汇学习不是一个孤立的技巧而是一种构建下一代视觉系统的范式转变。它迫使我们将视觉模型从封闭的“模式识别器”重新设计为开放的“概念理解器”。这条路还很长但每一次将模型的能力边界向外推进一步都让我们离让机器真正“看懂”世界的目标更近一步。对于从业者而言我的建议是不要只关注在某个数据集上刷高几个点而是多思考你的方法是否真的增强了模型理解新概念的本质能力以及如何能让它更高效、更鲁棒地服务于实际应用。这个领域的魅力正在于它连接着最前沿的AI研究与最真实的产业需求。