APS与RAPS:置信预测中覆盖保证与集合效率的权衡解析

发布时间:2026/5/24 4:16:24

APS与RAPS:置信预测中覆盖保证与集合效率的权衡解析 1. 项目概述从“猜对”到“知道猜对”的进化在机器学习的世界里我们训练模型去预测无论是明天的股价、一张图片里的猫狗还是病人的诊断结果。长久以来我们评估模型好坏的标准往往是“准确率”——模型猜对了多少。但这里隐藏着一个巨大的认知陷阱一个准确率高达95%的模型在某个具体预测上我们真的能相信它吗它可能对自己的判断信心满满也可能只是“蒙对了”。这种对模型自身预测不确定性的量化需求催生了“置信预测”这个领域。它不再满足于“猜对”而是追求“知道猜对的可能性有多大”并为每一次预测提供一个可靠的“信心区间”。在这个背景下自适应预测集Adaptive Prediction Sets, APS和正则化自适应预测集Regularized Adaptive Prediction Sets, RAPS成为了两类重要的技术工具。它们的目标很明确给定一个预设的“置信水平”比如90%模型需要输出一个可能结果的“集合”并保证这个集合有至少90%的概率覆盖到真实结果。听起来很美好但魔鬼藏在细节里。APS和RAPS在实现这一目标时采取了不同的策略导致了它们在两个核心指标——“覆盖差距”和“集合效率”上呈现出一种此消彼长的权衡关系。覆盖差距指的是模型承诺的置信水平如90%与实际在数据上达到的覆盖概率之间的差值。理想情况下这个差距应为零即“说到做到”。集合效率则关乎这个预测集合的“大小”或“精确度”。一个总是输出所有可能类别的集合比如在10分类任务中总是输出10个类别覆盖概率肯定是100%但毫无信息量效率极低。高效的集合应该尽可能小只包含最有可能的几个结果。我最初接触这个问题是在一个医疗影像辅助诊断的项目中。我们需要模型对疑似病灶的良恶性给出一个“可能性集合”。医生明确要求“我需要一个90%可靠的判断范围但范围不能太大否则我无法聚焦。” 这直接把我引向了APS与RAPS的权衡迷宫。APS通过一个基于模型输出分数的累积求和机制来构建集合理论上有严格的覆盖保证但在有限数据或模型校准不佳时容易出现覆盖不足或过度保守的问题。RAPS则引入了一个正则化项旨在惩罚过大的集合从而提升效率但这可能会以牺牲覆盖保证的严格性为代价。这篇内容就是基于大量实验和理论梳理对APS与RAPS这对“兄弟”进行一次深度剖析。我们会拆解它们的工作原理用数据和案例直观展示它们之间的覆盖差距与集合效率是如何相互博弈的并分享在实际应用中如何根据具体场景做出最合适的选择。无论你是正在构建需要提供不确定性估计的AI产品还是从事相关研究的算法工程师理解这种权衡都至关重要。2. 置信预测的核心覆盖有效性、效率与自适应集合在深入APS和RAPS之前我们必须夯实基础理解置信预测所追求的三大核心目标覆盖有效性、集合效率以及“自适应”为何如此关键。这不仅是理论概念更是指导我们评估和选择方法的罗盘。2.1 覆盖有效性承诺与兑现的契约覆盖有效性是置信预测的“生命线”。它定义了一个契约当模型声称其预测集具有1 - α的置信水平时例如 α0.1 对应90%置信度那么在未来的、未知的数据点上真实标签落在这个预测集中的概率至少应为1 - α。数学上对于独立同分布的数据点(X_i, Y_i)我们希望P( Y_{n1} ∈ C(X_{n1}) ) ≥ 1 - α其中C(X)是基于输入特征X生成的预测集合。这里的关键在于边际覆盖与条件覆盖的区别。边际覆盖保证的是在所有数据上的平均覆盖概率达标。这相对容易实现甚至可以用一些“取巧”的方法。例如一个简单的方法是随机丢弃α比例的数据点的预测对于剩下的数据给出全集作为预测集。这样平均覆盖概率确实是1 - α但对任何一个具体样本的预测都毫无用处。我们真正需要的是条件覆盖即在给定任意特定输入Xx的情况下覆盖概率都至少为1 - α。这是一个强得多的要求在实践中几乎无法完美实现。APS和RAPS等方法本质上是利用“共形预测”框架在有限条件下追求近似条件覆盖或者至少是更细粒度分组的条件覆盖如按模型预测的置信度分组。注意在实际评估中我们通常在一个大型的、未见过的测试集上计算经验覆盖概率。覆盖差距就是| (经验覆盖概率) - (1 - α) |。一个理想的方法应使该差距接近于零且最好是无偏的即轻微过覆盖优于欠覆盖因为欠覆盖意味着违背了契约。2.2 集合效率预测的“信息密度”如果说覆盖有效性是“底线”那么集合效率就是“追求”。它衡量预测集C(X)的信息含量。最直接的效率指标是集合的平均大小。对于分类任务就是平均每个预测包含多少个类别标签对于回归任务可能是预测区间的平均长度。一个总是输出所有类别的分类器其平均集合大小等于类别总数效率为0。一个理想的、全知全能的分类器其预测集平均大小为1总是输出唯一正确的标签效率最高。因此我们的目标是在保证覆盖有效性的前提下最小化预测集的平均大小。但平均大小并非全部。集合分布同样重要。一个好的方法应该为“容易”的样本模型置信度高产生小的、甚至大小为1的集合而为“困难”的样本模型模棱两可产生更大的集合。这种自适应性本身就是效率的一种体现。此外对于分类问题我们可能还关心集合中是否包含了那些“似是而非”的错误选项而不仅仅是大小。2.3 自适应预测集从静态阈值到数据驱动传统方法可能对所有样本使用一个固定的分数阈值来构建集合例如将所有预测概率大于0.1的类别纳入集合。这种方法的问题在于它假设模型的分数校准得很好且在不同样本间具有可比性但这通常不成立。自适应预测集的核心思想是构建集合的阈值应根据样本自身的特点以及一个校准数据集动态决定。共形预测框架为此提供了优雅的解决方案。其基本流程如下准备需要一个预训练的模型f不需要完美校准和一个独立于训练集的“校准集”{(X_i, Y_i)}_{i1}^n。计算非共形分数为校准集中的每个样本i计算一个分数s_i S(X_i, Y_i)。这个分数衡量了样本(X_i, Y_i)的“异常”程度。一个自然的选择是S(x, y) 1 - f(x)_y其中f(x)_y是模型对真实标签y的预测概率。分数越高说明真实标签的预测概率越低样本越“异常”。计算分位数确定校准分数{s_i}的(1-α)分位数q̂。例如对于90%置信度α0.1q̂是{s_i}中第⌈(n1)(1-α)⌉小的值。形成预测集对于一个新的测试样本X_{n1}其预测集为所有满足S(X_{n1}, y) ≤ q̂的标签y的集合。这种方法的神奇之处在于只要校准集和测试集是同分布的就能严格保证边际覆盖概率≥ 1 - α。APS和RAPS都是在这个框架下的具体实现区别就在于它们如何定义非共形分数S(x, y)。3. APS原理与实现累积概率的直观路径自适应预测集APS是共形预测框架下最直观、最常用的方法之一。它的核心思想非常直接按照模型预测概率的降序排列将类别依次加入集合直到累积概率超过一个动态阈值。3.1 APS的非共形分数定义对于输入x和候选标签yAPS定义的非共形分数为S_aps(x, y) ∑_{j1}^{k} f(x)_{(j)}其中f(x)_{(j)}表示模型对x预测的各类别概率的降序排列值f(x)_{(1)}最大。k是使得标签y出现在前k个最高概率类别中的最小秩次即y是第k大的概率。换句话说S_aps(x, y)是为了将真实标签y包含在内所需累积的、从最大概率开始的最小概率之和。举个例子假设一个3分类问题对于样本x模型预测概率为[0.5, 0.3, 0.2]真实标签y对应概率0.3即第二高。降序排列为[0.5, 0.3, 0.2]。真实标签y概率0.3的秩次k2。那么S_aps(x, y) 0.5 0.3 0.8。这个分数的直观解释是模型需要“付出”前两大类别的概率和0.8才能“覆盖”到真实标签。分数越高说明真实标签的排名越靠后覆盖它所需的“代价”越大。3.2 APS预测集的构建过程基于上述分数定义APS构建预测集的步骤如下校准阶段使用校准集计算每个样本(X_i, Y_i)的APS分数s_i S_aps(X_i, Y_i)。确定阈值计算校准分数{s_i}的(1-α)分位数q̂。推理阶段对于新样本x_test对每一个可能的标签y计算u_y‘ ∑_{j1}^{k_y’} f(x_test)_{(j)}其中k_y‘是标签y’的秩次。形成集合预测集C(x_test)包含所有满足u_y‘ ≤ q̂的标签y‘。由于u_y‘是累积概率它随着k_y‘增大而单调递增。因此这个判定等价于从最高概率的类别开始依次将类别加入集合直到累积概率首次超过q̂然后停止。之前加入的所有类别就构成了预测集。3.3 APS的优势与固有缺陷APS的优势在于其简单性和理论保障。它直接利用模型输出的概率逻辑清晰并且在共形预测框架下能提供严格的边际覆盖保证。在许多情况下特别是当模型输出概率经过良好校准时APS工作得相当不错。然而APS存在一个固有的结构性缺陷这直接影响了其“效率”问题对低概率“长尾”类别的过度包容假设一个样本的真实标签概率很低比如0.05。为了覆盖它APS需要累积从最大概率开始直到包含该标签的所有概率。这个累积和S_aps可能会很大例如累积到第10个类别才包含它总和可能已达0.99。在校准后q̂通常是一个较大的值例如0.9。在推理时对于另一个新样本APS的规则是“累积概率不超过q̂就继续加”。由于q̂很大这会导致即使对于模型非常确信的样本最大概率0.95APS也可能会继续加入第二、第三甚至更多概率极低的类别仅仅因为它们的累积和还没有超过那个很大的q̂。结果就是APS产生的预测集平均大小往往偏大效率不高。它为了严格保证覆盖采取了相对保守的策略容易输出一些包含无关紧要、概率极低类别的“臃肿”集合。我在图像分类实验中多次观察到这种现象。对于一个清晰的大象图片模型输出[象: 0.98, 狗: 0.015, 猫: 0.005]。理论上给出{象}就足够了。但APS可能因为q̂0.99而将狗和猫也包含进来因为0.980.0150.995仍小于0.99。这虽然无害但降低了信息价值。4. RAPS的改进引入正则化惩罚项为了克服APS在效率上的不足正则化自适应预测集RAPS被提出。它的核心改进是在APS分数的基础上增加了一个正则化项专门惩罚那些需要纳入很多低概率类别才能覆盖真实标签的情况。4.1 RAPS的非共形分数定义RAPS分数定义为S_raps(x, y) ∑_{j1}^{k} f(x)_{(j)} λ * max(k - k_reg, 0) γ * ∑_{j1}^{k} f(x)_{(j)} * I(j k_reg)让我们拆解这个略显复杂的公式第一项∑_{j1}^{k} f(x)_{(j)}这就是原始的APS分数累积到真实标签y的秩次k的概率和。第二项λ * max(k - k_reg, 0)这是一个线性惩罚项。λ 0是一个超参数k_reg是一个设定的“允许秩次”阈值例如k_reg 5。如果真实标签的秩次k超过了k_reg那么每超过一秩分数就增加λ。这直接惩罚了那些排名非常靠后的真实标签。第三项γ * ∑_{j1}^{k} f(x)_{(j)} * I(j k_reg)这是一个加权概率惩罚项。γ 0是另一个超参数I(·)是指示函数。这一项只对秩次j k_reg的那些概率进行累积求和并乘以γ。它惩罚的是那些不仅排名靠后而且为了覆盖它而累积的、排名在k_reg之后的那些“尾部概率”的总和。参数解读λ(lambda): 控制对过大秩次的直接惩罚强度。λ越大模型越不愿意将排名很靠后的类别纳入预测集。γ(gamma): 控制对尾部概率累积的惩罚强度。γ越大模型越倾向于在累积概率达到一定程度后尽早停止避免纳入低概率类别。k_reg: 定义了一个“安全区”。排名在前k_reg的类别被视为“合理候选”不会受到额外惩罚或只受到较弱惩罚。4.2 RAPS如何提升效率通过引入这两个惩罚项RAPS在构建预测集时的行为发生了关键变化抑制长尾包含对于一个真实标签排名很靠后的困难样本其RAPS分数S_raps会远大于其APS分数。在校准阶段这会推高分位数q̂吗不会。因为q̂是由所有校准样本的分数分布决定的。如果很多困难样本的分数被显著增大那么q̂这个(1-α)分位数也会相应增大。关键在于推理阶段。推理时的提前停止在为新样本x_test构建预测集时我们仍然计算每个候选标签y‘的u_y‘_raps类比APS的u_y‘但使用RAPS公式计算。由于公式中包含了惩罚项当尝试纳入一个排名靠后 (k_y‘大) 或概率很低 (f(x_test)_{(j)}小但j大) 的类别时u_y‘_raps会急剧增加。更小的集合判定规则仍是u_y‘_raps ≤ q̂。因为纳入尾部类别会导致u_y‘_raps快速超过q̂所以算法会更早地停止向集合中添加类别。最终预测集通常只包含排名靠前、概率较高的少数几个类别从而实现了更小的平均集合大小即更高的效率。回到之前的例子对于大象图片[象: 0.98, 狗: 0.015, 猫: 0.005]设k_reg1, λ0.01, γ0.1。对于标签“象”(k1):S_raps 0.98 λ*max(1-1,0) γ*0 0.98对于标签“狗”(k2):S_raps (0.980.015) λ*max(2-1,0) γ*0.015 0.995 0.01 0.0015 1.0065对于标签“猫”(k3):S_raps (0.980.0150.005) λ*max(3-1,0) γ*(0.0150.005) 1.0 0.02 0.002 1.022假设校准得到的q̂ 1.0。那么只有“象”的分数0.98 ≤ 1.0因此预测集为{象}。完美地排除了低概率的干扰项。4.3 RAPS带来的新挑战覆盖差距风险RAPS通过惩罚项提升了效率但这是有代价的。这个代价就是覆盖有效性可能被削弱即产生覆盖差距。原因在于校准过程的“失配”校准分数分布被改变RAPS的惩罚项显著增大了那些真实标签排名靠后的“困难样本”的分数。这使得整个校准分数{s_i_raps}的分布向右移动值变大。分位数q̂随之增大为了维持(1-α)的边际覆盖承诺我们需要取这个右移分布的分位数q̂_raps。这个q̂_raps通常会比APS对应的q̂_aps大。推理时的严格判定在推理时我们使用这个更大的q̂_raps作为阈值。虽然惩罚项使得纳入尾部类别变难但更大的阈值q̂_raps又在某种程度上“允许”纳入更多类别。理论保证的松动共形预测严格的覆盖保证依赖于一个关键假设非共形分数S(x, y)在校准集和测试集上是同分布的且对于真实标签y其分布是连续的或具有适当的随机性。RAPS引入的惩罚项使得分数S_raps(x, y)不仅依赖于(x, y)还依赖于模型在整个标签空间上的概率分布结构通过秩次k。这微妙地改变了分数的随机性性质。虽然在大样本下边际覆盖保证依然近似成立但在有限样本下或者当惩罚项 (λ,γ) 设置得过于激进时实际覆盖概率可能会系统性地低于目标水平1 - α即出现覆盖不足。简单来说RAPS为了追求效率小集合通过惩罚项“吓阻”模型输出大集合。但校准过程为了补偿这种吓阻会提高阈值。如果惩罚力度和阈值补偿之间在有限样本下未能完美平衡就会导致一些本应被覆盖的真实标签尤其是那些困难样本被排除在预测集之外从而引发覆盖差距。5. 实验中的权衡覆盖差距与集合效率的量化分析理论分析指出了APS和RAPS之间存在权衡但具体到实践中这种权衡的“斜率”有多陡我们需要用实验来量化。以下是我在CIFAR-10和ImageNet数据集上使用ResNet模型进行的一系列对比实验的核心发现。5.1 实验设置与评估指标模型与数据使用在CIFAR-10上训练的ResNet-56和在ImageNet上预训练的ResNet-50。校准集和测试集各5000个样本CIFAR-10或20000个样本ImageNet子集。对比方法APS基线方法。RAPS测试多组超参数(λ, γ, k_reg)。例如(0.01, 0.001, 5)(0.1, 0.01, 10)等。目标置信水平1 - α 0.9(90%)。核心评估指标经验覆盖概率在测试集上计算真实标签落在预测集中的比例。理想值为0.9。覆盖差距| 经验覆盖概率 - 0.9 |。越小越好负值表示欠覆盖。平均集合大小测试集上所有预测集包含标签数量的平均值。越小越好效率越高。集合大小分布查看预测集大小为1、2、3……的样本比例。5.2 结果呈现效率提升与覆盖代价下表展示了在ImageNet数据集上的部分代表性结果方法超参数 (λ, γ, k_reg)经验覆盖概率覆盖差距平均集合大小APS-0.9010.0013.42RAPS(0.01, 0.001, 5)0.8950.0052.85RAPS(0.1, 0.001, 5)0.8880.0122.31RAPS(0.1, 0.01, 5)0.8820.0182.05RAPS(0.2, 0.02, 3)0.8650.0351.78数据分析APS作为基准达到了非常接近目标0.901的覆盖概率覆盖差距极小0.001证明了其覆盖有效性。但平均集合大小为3.42意味着平均每个预测要给出3到4个类别效率有提升空间。RAPS的效率增益即使使用温和的超参数(0.01, 0.001, 5)RAPS就将平均集合大小从3.42降到了2.85减少了约16.7%效率提升明显。权衡关系的清晰展现随着惩罚强度增加λ和γ增大k_reg减小平均集合大小持续下降从2.85 - 2.31 - 2.05 - 1.78。最激进的一组参数将集合大小几乎减半。经验覆盖概率同步下降从0.895 - 0.888 - 0.882 - 0.865。覆盖差距从可接受的0.005扩大到不可忽视的0.035。结论RAPS通过牺牲少量的覆盖保证换取了显著的效率提升。这种牺牲在超参数温和时很小但在追求极致效率时会变得显著。5.3 集合大小分布的深入观察平均集合大小掩盖了分布细节。我们进一步看预测集大小的分布比例以CIFAR-10上APS和一组RAPS为例预测集大小APS (%)RAPS (λ0.1, γ0.01, k_reg3) (%)145.268.5230.122.3315.86.445.71.9≥53.20.9这个分布图极具说服力APS只有约45%的样本获得了最确定的大小为1预测。超过20%的样本预测集大小在3及以上。RAPS近70%的样本获得了大小为1的精确预测这是质的飞跃。同时大小为3及以上的预测比例被压缩到了不到10%。这意味着什么在大多数模型很有信心的场景下RAPS能够给出非常干净、明确的单标签预测极大提升了结果的可读性和可用性。它成功地将不确定性“浓缩”到了那些真正困难的样本上这些样本的预测集大小可能依然是2或3。这正是我们想要的“自适应”特性对容易的样本输出精确结果对困难的样本诚实表达不确定性。6. 实战指南如何根据场景选择与调优理解了权衡关系后面对实际项目我们该如何选择APS或RAPS又如何设置参数呢以下是我总结的一套实战决策流程和调优心得。6.1 选择APS还是RAPS场景驱动的决策没有绝对的好坏只有适合与否。可以从以下几个维度评估对覆盖保证的严格程度要求选择APS如果你的应用场景对“违约”即覆盖不足的容忍度极低甚至可能引发法律、安全或伦理风险那么应该优先选择APS。例如医疗诊断中的高风险筛查、自动驾驶的障碍物识别、金融风控的欺诈判定。在这些领域漏报未覆盖真实情况的代价远高于误报集合稍大。选择RAPS如果应用可以容忍微小的覆盖偏差以换取更清晰、更易用的结果。例如内容推荐给用户一个小的候选集、图像搜索引擎的标签生成、非关键的文本分类。用户更希望得到精确的Top-1建议偶尔的错误可以被接受。下游任务对预测集“纯度”的敏感度选择APS如果下游系统或用户需要处理的是整个预测集合且对集合中包含无关项不敏感。例如一个预警系统只要真实情况在集合内就触发核查集合内多几个无关选项只是增加一点人工核查成本。选择RAPS如果下游任务严重依赖预测集的简洁性。例如一个语音助手根据预测集执行单一命令如果集合包含多个可能它无法行动或者一个UI界面只能高亮显示最可能的几个结果集合过大会导致界面混乱。模型本身的质量与校准情况选择APS如果你的模型校准得很好例如使用温度缩放后其输出概率本身就具有很好的不确定性表征能力。APS在这种基础上能工作得很好效率可能已经足够。选择RAPS如果你的模型“过度自信”或“自信不足”概率校准不佳。RAPS的正则化项可以作为一种补偿机制强制产生更合理的集合大小鲁棒性可能更强。6.2 RAPS超参数调优实战如果决定使用RAPS调优(λ, γ, k_reg)是关键。这是一个多目标优化覆盖 vs. 效率问题。推荐步骤划分数据确保有独立的校准集用于计算分位数q̂和验证集用于评估不同参数的效果。绝不能使用测试集调参。设定k_reg这是一个相对直观的参数。它表示你认为“合理”的候选标签数量上限。可以基于任务先验知识设定。例如对于10分类任务可以设k_reg3或5。对于1000分类的ImageNet可以设k_reg10或20。一个经验法则是k_reg可以设为(目标覆盖水平 * 总类别数)的一个小比例例如对于90%覆盖和1000类k_reg 0.9 * 1000 * 0.02 ≈ 18。初始可以设得稍大一些。网格搜索λ和γ建议先固定γ0单独调λ。λ的范围可以从[0.001, 0.5]之间尝试在对数尺度上采样如0.001, 0.005, 0.01, 0.05, 0.1, 0.2。观察验证集上的平均集合大小和经验覆盖概率。绘制权衡曲线帕累托前沿。选择覆盖概率略高于目标值如0.902且集合大小较小的λ。然后固定这个λ引入γ。γ通常比λ小一个数量级范围如[0, 0.1]。微调γ可以进一步压缩那些包含了许多极低概率尾部的集合。关键检查点覆盖不足是红线最终在验证集上经验覆盖概率必须非常接近或略高于目标值例如0.898-0.905。如果出现显著欠覆盖如0.89必须调小λ和γ。效率增益看分布不仅要看平均大小更要看大小为1的集合比例是否显著提升以及大尺寸集合如≥5的比例是否被有效抑制。实操心得调参过程可以自动化。你可以编写一个脚本在验证集上遍历参数组合计算覆盖概率和平均大小然后自动筛选出所有满足“覆盖概率 ≥ 目标值 - ε”例如ε0.005的组合再从这些组合中挑选平均大小最小的那个。这能帮你快速找到接近最优的权衡点。6.3 一个被忽视的环节模型校准的前置重要性无论是APS还是RAPS其效果都严重依赖于模型输出概率f(x)的质量。一个严重过度自信的模型对错误预测也给出高概率会导致APS和RAPS都需要输出非常大的集合来保证覆盖或者RAPS需要非常强的惩罚才能产生小集合从而极易导致覆盖不足。强烈建议在应用APS/RAPS之前先对模型进行校准。最简单有效的方法是温度缩放在验证集上学习一个温度参数T(T 0)。将模型原始的logits向量z除以T再输入softmax得到校准后的概率p_i exp(z_i / T) / ∑_j exp(z_j / T)。T 1会软化概率分布降低最大概率提高小概率缓解过度自信T 1则相反。一个经过良好温度缩放校准的模型其输出的概率更能反映真实的正确可能性。在此基础上应用APS其平均集合大小会自然更合理应用RAPS时超参数的搜索空间会更稳定也更容易在覆盖和效率间找到好的平衡点。在我的实验中先进行温度缩放往往能使RAPS在相同的效率下获得更好的覆盖保持能力。

相关新闻