半监督主动学习:结合自监督与多样性采样提升数据利用效率

发布时间:2026/5/26 22:46:03

半监督主动学习:结合自监督与多样性采样提升数据利用效率 1. 项目概述与核心挑战在深度学习的实际应用中我们常常面临一个看似无解的困境模型性能的提升极度依赖海量、高质量的标注数据但获取这些数据的成本却高得惊人。无论是医疗影像中需要医生逐帧标注的病灶还是自动驾驶场景中需要精确勾勒的物体边界人工标注不仅耗时费力更需要领域专家的深度参与。这种对标注数据的强依赖成为了许多前沿AI项目落地的主要瓶颈。主动学习正是为了破解这一难题而生的技术范式。它的核心思想非常直观与其被动地接受所有数据不如让模型“主动”出击从海量的未标注数据池中挑选出那些最能帮助自己成长的样本交给人类专家进行标注。这就像一位聪明的学生不会盲目地刷遍所有习题而是会重点攻克那些自己最不懂、或者最能举一反三的典型题目。传统的主动学习策略主要围绕两大方向展开一是不确定性采样即选择当前模型最“拿不准”的样本例如预测概率熵最高的样本二是代表性采样即选择那些最能代表整个数据分布多样性的样本例如通过聚类中心选择。然而传统方法存在一个明显的局限它们在挑选样本时模型仅使用已标注的少量数据进行监督学习而庞大的未标注数据在训练过程中被完全闲置了。这无疑是一种巨大的浪费。半监督学习的出现提供了另一种思路它通过一致性正则化、伪标签等技术让模型能够同时从已标注和未标注数据中学习显著提升数据利用效率。那么一个很自然的想法是能否将两者的优势结合起来这就是半监督主动学习试图回答的问题。但结合并非简单的拼接在半监督学习的框架下模型从数据中获取信息的方式发生了根本变化传统的基于监督学习模型不确定性的采样策略其有效性需要重新评估。本文要探讨的正是这个交叉领域的一个关键进展如何为半监督主动学习设计更高效的查询策略我们提出并深入解析一种基于多样性采样的新方法。该方法创新性地从两个层面进行优化首先在一切开始之前我们利用自监督学习从完全无标签的数据中学习特征表示并基于此进行初始数据集的多样性选择为整个主动学习流程打下更好的基础。其次在每一轮主动学习循环中我们构建了一个一致性嵌入空间将模型对样本预测的“一致性”不确定性在半监督语境下的体现与样本的“多样性”信息巧妙融合从而挑选出对半监督训练最具价值的样本进行标注。2. 核心思路与方案设计解析2.1 为什么是“多样性”与“一致性”的结合要理解我们方案的设计动机需要先剖析在半监督主动学习场景下样本的“价值”如何被重新定义。在纯监督的主动学习中一个样本的价值往往体现在它能多大地减少模型在当前数据分布上的认知不确定性。例如一个落在决策边界上的样本高不确定性其标注信息能直接帮助模型调整边界。但在半监督学习中模型通过一致性正则化如对同一图像施加不同数据增强要求模型输出保持一致从未标注数据中学习。此时如果一个样本在经过各种增强后模型的预测结果波动很大即低一致性说明当前模型无法从该样本中提取稳定的、有用的信息。标注这个样本就能为模型提供一个“锚点”帮助它更好地理解这类难以通过无监督方式学习的样本特征。但是仅仅选择最不一致的样本就够了吗想象一下如果所有被选中的“不一致”样本在特征空间中都挤在一小片区域那么它们携带的信息很可能是冗余的。标注它们相当于对同一类难题重复投入标注资源效率低下。这就是多样性需要介入的原因。我们需要确保被选中的批次不仅在个体上是“难”的不一致而且在整体上能广泛覆盖数据分布的不同模式。因此我们的核心设计思想是构建一个既能反映样本预测不一致性信息量又能反映其表征独特性代表性的度量标准并在此基础上进行批量选择。2.2 方案总览双管齐下的优化路径我们的方法主要包含两个创新模块分别针对主动学习流程的起点和循环过程进行优化基于自监督表示的多样性初始数据集选择在主动学习开始前我们没有任何已标注数据来训练模型。传统做法是随机选择一小批数据作为种子。我们提出可以利用自监督学习如RotNet、BYOL在全部未标注数据上预训练一个特征提取器。这个特征提取器学习到的表示尽管没有类别标签但已经捕获了图像的结构化语义信息。然后我们在这个自监督特征空间上应用多样性采样算法如k-means初始化来选择第一批待标注数据。这样做的目标是用最少的初始标注成本为模型提供一个在特征空间上分布尽可能广、代表性强的“启动样本集”为后续的半监督学习奠定一个更好的初始状态。基于一致性嵌入的多样性查询策略在每一轮主动学习循环中我们有一个用已标注数据和大量未标注数据通过半监督学习如MixMatch训练得到的当前模型。对于池子里的每一个未标注样本我们计算其一致性嵌入。具体而言对于一个样本我们获取其通过模型倒数第二层得到的特征向量f同时计算模型对该样本进行多次数据增强后预测的类别方差之和c即不一致性得分。将两者相乘得到一致性嵌入g c * f。这个嵌入向量的模长正比于不一致性c方向则由特征f决定。随后我们在这个一致性嵌入空间上再次应用多样性采样算法如k-Center-Greedy来选择下一个批次的待标注样本。这个设计非常巧妙采样算法会倾向于选择那些嵌入向量模长大的样本即不一致性高的样本同时又要保证被选中的样本之间的嵌入向量在空间中尽可能分散即多样性高。从而自动实现了不一致性与多样性的平衡。注意这里的一致性嵌入g c * f是关键。它不同于单纯按不一致性得分c排序选择前k个。后者完全忽略了多样性可能导致所选样本在特征空间f上聚集。而我们的方法将c作为特征f的权重在衡量样本间距离多样性时不一致性高的样本其特征向量的影响会被放大使得采样过程自然地向高不一致性区域倾斜同时又保证了选点之间的分散性。3. 核心细节解析与实操要点3.1 自监督特征提取与初始选择实操自监督模型的选择与训练 对于初始数据集选择自监督模型的质量直接决定了所选样本的“代表性”。我们实验中在CIFAR-10上使用了RotNet其前置任务是预测图像旋转角度0° 90° 180° 270°。这个任务迫使网络学习图像中物体的形状、朝向等本质特征得到的特征具有较好的语义区分度。对于更复杂的数据集如Caltech-101我们使用了在ImageNet上预训练的BYOL模型。BYOL通过在线网络和目标网络的相互学习能产生非常强大的视觉表征即使不进行下游任务微调其特征也足够用于多样性评估。实操步骤特征提取使用选定的自监督模型不包含其最后的分类头对未标注池U中的所有样本进行前向传播提取倒数第二层或指定中间层的激活值作为特征向量f_i。特征降维可选但重要如原文所述原始特征维度可能很高例如RotNet第二层特征展平后维度达12288。在高维空间中欧氏距离会变得不稳定且计算量大。我们采用全局平均池化将特征压缩到一个较低的维度如192维这能有效缓解“维度灾难”并提升后续聚类采样的效率和稳定性。多样性采样在降维后的特征空间{f_i}上应用k-means初始化算法来选择K_init个初始样本。k-means的步骤是 a. 随机选择第一个中心点。 b. 对于每个非中心点样本计算其到最近中心点的距离d_i。 c. 依据概率p_i ∝ d_i^2选择下一个中心点即距离越远的点被选中的概率越大。 d. 重复步骤b和c直到选出K_init个中心点。 这些被选中的样本即构成初始标注集L_0。心得自监督模型的选择需要与目标任务的数据域有一定相关性。如果领域差异巨大例如用自然图像预训练的模型处理医学图像特征质量可能会下降。此时可以考虑在目标域的无标签数据上对自监督模型进行短暂的领域自适应预训练哪怕只是几个epoch也能显著提升特征的相关性。3.2 一致性嵌入的计算与采样策略一致性计算细节 对于当前半监督训练得到的模型M_t和未标注样本x_i其一致性得分实为不一致性c_i的计算是关键。对样本x_i进行N_a次不同的标准数据增强如随机水平翻转、随机裁剪得到增强样本集合{x_i^1, x_i^2, ..., x_i^{N_a}}。将每个增强样本输入模型M_t得到其对于C个类别的预测概率向量p_i^k ∈ R^C。对于每个类别c计算N_a个预测概率{p_i^k[c]}的方差σ_{i,c}^2。这衡量了模型对该样本在类别c上预测的波动程度。样本x_i的总一致性得分定义为所有类别方差之和c_i Σ_{c1}^{C} σ_{i,c}^2。c_i值越大表示模型对该样本的预测越不一致其信息量可能越大。一致性嵌入构建与采样获取样本x_i的模型特征f_i同样是倒数第二层激活。构建一致性嵌入向量g_i c_i * f_i。这是一个与f_i同维度的向量。在一致性嵌入空间{g_i}上应用k-Center-Greedy算法即最远点采样进行批量选择。算法步骤如下 a. 初始化已选集合S为空。 b. 随机选择第一个点加入S。 c. 对于未标注池中每个未选点j计算其到S中所有点的最小距离d_j min_{s∈S} ||g_j - g_s||_2。 d. 选择d_j最大的那个点即离已选点集最远的点加入S。 e. 重复步骤c和d直到选出所需批大小的样本。注意k-Center-Greedy算法对应多样性采样公式中温度参数T→0是一种极端追求多样性的贪心算法。原文实验发现在一致性嵌入空间上这种策略效果最好。这意味着在半监督主动学习中在保证了每个样本自身信息量通过c_i加权的前提下最大化批次内样本的多样性是提升效率的关键。这与监督主动学习中BADGE等方法同时考虑不确定性和多样性的思路一脉相承但我们的不确定性度量c_i是针对半监督学习特性量身定制的。3.3 半监督学习训练框架的集成我们的查询策略需要嵌入到一个半监督学习训练框架中。我们遵循主流做法使用MixMatch作为半监督训练器。其流程简述如下输入一个小批量标注数据X和一个大批量未标注数据U。数据增强对X和U都进行弱增强如随机翻转裁剪。对U进行K次增强得到U。伪标签生成对U中每个样本的K个增强版本的预测概率求平均然后进行锐化操作得到伪标签q。MixUp混合将增强后的标注数据X和带有伪标签的未标注数据U混合在一起进行MixUp操作生成新的混合样本和标签。损失计算损失函数由标注数据的交叉熵损失和未标注数据的均方误差损失加权组成。主动学习循环集成 整个半监督主动学习的流程形成一个闭环初始阶段使用自监督特征进行多样性采样得到初始标注集L_0。循环开始For t 0, 1, 2, ...: a.训练使用当前标注集L_t和全部未标注集U_t通过MixMatch训练模型M_t。 b.查询使用模型M_t在未标注集U_t上计算所有样本的一致性嵌入g并用k-Center-Greedy算法选择批大小为B的样本S_t。 c.标注将S_t提交给专家进行标注获得真实标签。 d.更新L_{t1} L_t ∪ S_t,U_{t1} U_t \ S_t。循环结束当标注预算耗尽或模型性能达标。4. 实验配置与结果深度解读4.1 实验设置与基线对比为了验证方法的有效性我们在两个经典图像分类数据集上进行了实验CIFAR-1010类60K张32x32小图像。初始标注集150张0.3%每轮主动学习预算分别为[50, 50, 250, 250, 250]张。Caltech-101101类约8.7K张图像。初始标注集388张5%每轮预算为5%。网络与训练CIFAR-10使用Wide ResNet-28-2Caltech-101使用ResNet-18。半监督训练均采用MixMatch使用其默认超参。对比基线Maximum Entropy [21]经典的不确定性采样方法选择预测熵最高的样本。使用监督学习训练。Core-set [33]代表性方法在模型特征空间上用k-Center-Greedy算法选择样本以覆盖整个空间。使用监督学习训练。BADGE [4]结合不确定性与多样性的SOTA监督主动学习方法在梯度嵌入空间上进行k-means采样。Consistency [15]纯一致性驱动的半监督主动学习方法直接选择一致性得分c_i最高的样本。使用MixMatch训练。4.2 初始数据集选择的有效性分析我们首先验证了基于自监督的多样性初始选择是否优于随机选择。如图4所示我们衡量了两个指标类别分布距离所选初始集的类别分布与原始数据集分布的差异最大类别比例差。我们希望这个值小避免初始偏差。样本多样性所选初始样本在自监督特征空间中的平均两两L2距离。我们希望这个值大代表样本覆盖广。结果分析随机选择类别分布较均衡距离小但样本多样性较低。k-Center-Greedy (T→0)样本多样性最高但类别分布严重失衡距离大。这是因为它极度追求特征空间的距离最大化可能把所有点都选在某个远离所有类的边缘区域导致类别偏斜。k-means (T0.5)在保持了与随机选择相近的良好类别平衡性的同时显著提升了样本多样性p0.001。这完美契合了我们的目标一个既均衡又有广泛代表性的起点。实操心得这个实验揭示了一个重要经验在初始选择阶段绝对的多样性最大化k-Center-Greedy可能有害因为它会破坏数据分布的平衡性。引入一定随机性的k-means策略T0.5是一个更稳健的选择。这背后的直觉是自监督特征虽然包含语义信息但并非完美过于贪婪的采样容易放大特征空间的噪声或偏差。4.3 查询策略如何平衡一致性与多样性我们深入分析了提出的一致性嵌入查询策略。图6展示了在不同温度参数T下所选样本的一致性和多样性。当T减小趋向于k-Center-Greedy时所选样本的不一致性c_i值和多样性都随之增加。这表明在我们构建的一致性嵌入空间g_i c_i * f_i上执行多样性采样确实能同时促进对高不一致性样本和多样化样本的选择。图7将我们的方法T→0与基线方法在第一个主动学习周期选择的样本进行了对比一致性图7a纯一致性方法[15]选择不一致性最高的样本理所当然。监督学习方法Max Entropy Core-set BADGE选择的样本不一致性显著较低。我们的方法选择样本的不一致性仅次于纯一致性方法远高于监督学习方法。这说明我们的方法成功捕获了半监督学习框架下的“信息量”标准。多样性图7bCore-set方法选择的样本多样性最高其设计目标。我们的方法选择的样本多样性仅次于Core-set显著高于纯一致性方法和其他监督学习方法。这说明我们的方法在追求高不一致性的同时有效避免了样本在特征空间中的聚集。结论一致性嵌入查询策略成功地在高不一致性和高多样性之间取得了最佳平衡。纯一致性方法只顾“难点”可能重复标注相似难点监督学习方法的标准如熵、梯度在半监督环境下可能不适用而我们的方法通过将不一致性信息编码进嵌入空间让多样性采样过程自动倾向于高不一致性区域实现了“在广泛的难点中选点”。4.4 最终性能对比与消融实验主实验对比图8 在CIFAR-10和Caltech-101上我们完整的方案自监督初始选择 一致性嵌入查询在多个主动学习周期内性能均稳定优于所有基线方法。一个关键观察是所有结合了半监督学习MixMatch的方法Consistency[15]和Ours其性能曲线都显著高于仅使用监督学习的基线方法Max Entropy, Core-set, BADGE。这凸显了在半监督主动学习中利用未标注数据参与训练的巨大优势。消融实验一初始选择的有效性图10单独测试我们的自监督初始选择算法后续查询仍用随机或基线方法。与随机初始相比使用我们的方法选择的初始集训练出的初始模型准确率更高CIFAR-10: 87.90% vs 86.26% Caltech-101: 51.39% vs 47.71%。这个优势在整个主动学习过程中得以保持。这证明了“好的开始是成功的一半”一个更具代表性和多样性的初始数据集能为后续学习提供更稳固的基石。消融实验二查询策略的有效性图11固定使用随机初始数据集仅对比查询策略。我们的一致性嵌入查询策略vs纯一致性查询策略[15]。在CIFAR-10上使用2%的标注数据每类约100张我们的方法达到92.41%准确率略优于纯一致性方法的92.33%。在多个周期上表现更稳定。在Caltech-101上使用约20%的标注数据每类约15张我们的方法达到64.47%准确率明显优于纯一致性方法的62.68%。这直接证明了在查询策略中引入多样性考量的必要性。纯一致性方法由于忽略了多样性其选择效率低于我们平衡后的策略。5. 实操建议、常见问题与未来方向5.1 实际应用中的关键步骤与调参建议自监督预训练模型的选择通用场景对于自然图像使用在ImageNet或更大规模数据集如LAION上预训练的模型如MoCo v3 DINOv2提取特征通常能获得强大且通用的表示。领域特定场景如果目标数据与自然图像差异大如遥感、医学、工业检测建议在目标领域的无标签数据上进行自监督预训练如SimCLR BYOL。即使只训练几十个epoch得到的特征也比通用模型更相关。特征层选择通常选择网络倒数第二层分类层之前的激活值作为特征。这一层特征通常具有高层语义信息且维度适中。也可以尝试对不同层的特征进行拼接或平均。一致性计算中的增强次数N_aN_a越大对方差c_i的估计越稳定但计算成本也线性增加。经验值对于CIFAR-10这类相对简单的数据集N_a50是可行的。对于ImageNet级别的大图N_a10或更少可能更实际。需要在准确性和效率间权衡。增强策略应使用与半监督训练中弱增强相同的策略如随机裁剪、水平翻转。强增强如ColorJitter Cutout可能导致预测方差人为增大干扰一致性度量的真实性。多样性采样算法参数T在初始选择阶段推荐使用T0.5即k-means在保证多样性的同时维持类别平衡。在主动学习查询阶段推荐使用T→0即k-Center-Greedy在一致性嵌入空间上追求最大多样性。这是一个可以微调的超参数。如果发现所选批次类别严重失衡可以适当增大T引入更多随机性。半监督训练器的选择我们使用了MixMatch但方法本身不限于此。FixMatch、FlexMatch等更新的半监督算法可能带来更好的性能。关键在于查询策略中使用的“一致性”度量需要与训练器中使用的正则化方式如一致性损失在理念上对齐。5.2 可能遇到的问题与排查思路初始选择后模型训练发散或不收敛可能原因自监督特征质量太差导致选出的初始样本全是噪声或离群点。排查可视化自监督特征的t-SNE图检查各类别是否具有可分性。检查初始数据集的类别分布是否极度失衡。解决尝试更强的自监督预训练在初始选择中引入类别平衡约束如每类至少选一个或者暂时退回到随机选择人工筛选部分样本。主动学习后期性能提升停滞可能原因一致性嵌入空间随着模型训练趋于稳定所有样本的c_i值都变得很小导致选择差异不明显。排查绘制每轮所选样本平均c_i值和多样性分数的曲线。如果c_i持续下降至很低水平。解决可以尝试动态调整c_i的计算方式例如使用相对值与池中样本平均c_i的比值或者结合其他不确定性度量如模型预测的熵进行加权。计算开销过大可能瓶颈a) 自监督预训练b) 每轮为所有未标注样本计算N_a次前向传播以获取c_ic) 在大规模嵌入空间上进行k-Center-Greedy计算复杂度O(nkB)。优化a) 使用预训练好的自监督模型避免从头训练。b) 使用更小的N_a或使用蒙特卡洛Dropout等近似估计不确定性的方法但需注意与一致性正则化的兼容性。c) 对未标注池进行子采样如随机选取一个子集再进行查询计算或使用更高效的近似最远点采样算法。与特定半监督算法不兼容现象更换半监督训练器后方法效果下降。分析不同的半监督算法对“一致性”的定义和利用方式不同。例如伪标签方法更关注高置信度样本。调整可能需要重新定义“信息量”度量。对于伪标签方法可以考虑使用预测置信度如最大类概率的倒数或边际margin来替代方差c_i构建新的嵌入空间。5.3 未来扩展方向与个人思考这项工作为半监督主动学习打开了一扇新的大门其核心思想——为特定学习范式设计与之匹配的样本价值度量并与多样性进行有机融合——具有很大的扩展潜力。面向其他任务的泛化本文聚焦图像分类。如何将其推广到目标检测、语义分割等任务这些任务的标注成本更高对主动学习的需求更迫切。挑战在于如何定义这些任务下的“一致性”和“特征表示”。例如在分割中一致性可以定义为模型对不同增强图像预测的逐像素标签的方差特征表示可以取自编码器的多尺度特征图。动态与自适应的策略当前的超参数如T用于计算c_i的增强集合是固定的。一个更智能的方向是让这些参数根据学习进度动态调整。例如在训练初期模型不稳定所有样本的c_i都可能很高此时可以更侧重多样性在训练后期可以更侧重挖掘真正难以一致的“硬样本”。与更先进的自监督/半监督学习结合自监督学习领域日新月异如MAE SimMIM。利用这些更强大的表示模型可以进一步提升初始选择和质量。同时半监督学习也在发展如Diffusion Model用于生成伪标签。主动学习查询策略需要与这些前沿训练范式协同进化。理论分析本文提供了丰富的实验分析但缺乏严格的理论保证。未来研究可以尝试从信息论或泛化误差界的角度分析这种基于一致性嵌入的多样性采样策略为何以及何时能比随机采样或其他策略更有效地降低模型误差。在我个人的实践和复现过程中最大的体会是没有“银弹”。这套方法在标准图像分类基准上表现优异但在迁移到特定业务数据集时往往需要细致的调整。自监督模型的选择、特征层的选取、数据增强策略与一致性计算的匹配这些细节共同决定了方法的成败。它要求实践者不仅要有算法实现能力更要对数据本身和任务特性有深刻的理解。最终最高效的主动学习系统往往是通用算法与领域知识精心结合的产物。

相关新闻