
1. 项目概述与核心动机在统计学和机器学习的日常研究与工程实践中我们常常会遇到一些“棘手”的数据和决策场景。比如你手头有一组多维度的贫困指标数据其中既有“是否接受过高等教育”这样的序数变量也有“家庭年收入”这样的基数变量你想比较两个地区的贫困程度但直接加权平均似乎总有些武断因为不同尺度的信息如何整合才合理又比如在评估多个机器学习算法时你同时关心准确率、F1分数、训练时间和内存消耗这些指标量纲不同、重要性各异如何给出一个既全面又稳健的排序而不是简单粗暴地取个平均值这些问题的背后都指向一个共同的挑战如何在信息不完全、尺度不统一、且存在不确定性的复杂环境下做出鲁棒且信息高效的决策与推断。传统的决策理论从冯·诺依曼的期望效用理论到萨维奇的主观概率理论为我们提供了在风险或不确定性下进行理性选择的黄金标准。然而它们通常依赖于一个强假设决策者拥有完全、精确的基数效用函数和概率信念。现实世界的数据和偏好往往是“非标准”的——我们可能只知道A比B好序数信息但不确定好多少或者只知道在某个维度上方案X比Y好“一些”部分基数信息。强行将这些模糊的、结构化的信息压缩成一个单一的精确数值不仅会损失信息还可能引入主观偏见导致结论脆弱。我过去几年的研究工作正是围绕如何为这类“非标准”情境构建一个坚实的决策理论基础而展开。其核心是两样工具偏好系统和广义随机占优。简单来说偏好系统是一种数学结构它能优雅地同时容纳序数和基数偏好信息形成一个“部分结构化”的知识表示。而广义随机占优则是建立在偏好系统之上的一套比较规则用于在不确定性下即比较随机变量做出鲁棒的优劣判断。这套框架的价值在于它不要求我们“虚构”出不存在的信息而是教我们如何最大限度地利用手头已有的、可能不完整的知识做出尽可能稳健的推断。2. 理论基础从经典决策论到偏好系统要理解我们工作的创新之处有必要先回顾一下经典决策理论的基石并看看它在哪里遇到了瓶颈。2.1 经典决策理论的局限与挑战经典的贝叶斯决策理论框架堪称优雅。它假设决策者能对每一个可能的结果赋予一个精确的效用值基数效用并对每一个不确定事件赋予一个精确的概率主观概率。最优决策就是最大化期望效用的那个选择。这个框架在理论上非常强大但在实践中面临两大难题完全基数信息的不可得性让人精确量化“我对这个结果的喜爱程度是7.5分”是极其困难的更不用说为所有可能世界状态赋予精确概率了。更多时候我们只能表达“我更喜欢A而不是B”或者“C发生的可能性比D大”。模型的脆弱性基于精确效用和概率得出的结论对这两个输入的微小变化可能非常敏感。如果效用或概率的设定本身就有误差或争议那么所谓的“最优决策”也就失去了说服力。这就引出了对鲁棒性的需求。鲁棒统计和鲁棒决策的目标就是让我们的结论对于模型假设如概率分布族、效用函数形式的轻微偏离不那么敏感。一种主流思路是采用不精确概率和不精确效用即用集合如概率区间、效用集合而非点值来描述我们的知识状态。决策准则也随之变为在“最坏情况”下寻求最优如Maximin准则或满足一定合理性如E-可容许性。2.2 偏好系统一种混合尺度信息的统一表示我们的工作从一个更根本的表示问题切入。与其一开始就考虑不精确的数值不如先思考我们到底拥有什么类型的信息。在很多实际问题中信息是混合尺度的序数信息只知道排序不知道差距。例如“算法A的准确率高于算法B”“治疗方案X的副作用小于Y”。部分基数信息知道部分对象之间的偏好强度。例如“A比B好的程度明显大于C比D好的程度”但我们无法给A和C的效用差一个绝对数值。局部基数信息在某些维度或某些比较上是基数的在其他方面是序数的。为了形式化地刻画这种部分结构化的偏好我们引入了偏好系统这一概念。一个偏好系统可以形式化地定义为一个三元组(X, R1, R2)X是备选方案或结果的集合。R1是X上的一个二元关系通常解释为“严格偏好于”。它捕获了我们确切的序数知识如果(x, y) ∈ R1则表示我们已知x严格优于y。R2是X×X上的一个四元关系或者说是X×X上的一个二元关系。它捕获了部分基数信息如果((x, y), (z, w)) ∈ R2则表示我们已知“从y到x的效用提升”严格大于“从w到z的效用提升”。这实质上是比较了效用差。关键洞见R2关系是偏好系统的精髓。它允许我们表达“A比B好的程度超过C比D好的程度”而无需知道A、B、C、D各自的绝对效用值。这极大地丰富了可表达的信息类型同时避免了强加完全基数化的要求。2.3 从偏好系统到效用表示集给定一个偏好系统一个很自然的问题是有哪些实数效用函数u: X - R是与我们已知的偏好信息一致的我们称这样的效用函数为该偏好系统的表示。一致性条件1如果(x, y) ∈ R1那么必须有u(x) u(y)。一致性条件2如果((x, y), (z, w)) ∈ R2那么必须有u(x) - u(y) u(z) - u(w)。所有满足这些条件的效用函数u构成的集合记作U。这个集合U精确地刻画了与现有部分知识相容的所有可能的基数效用。它通常不是一个单点而是一个凸集在适当的线性约束下。这个效用表示集U就是我们后续进行鲁棒决策和统计比较的出发点。我们不再依赖单一的、可能武断的效用函数而是考虑整个相容的效用函数族。3. 核心工具广义随机占优有了偏好系统和与之对应的效用表示集U我们就可以处理不确定性下的比较问题了即比较取值于偏好系统中的随机变量。这正是广义随机占优大显身手的地方。3.1 经典随机占优的回顾与局限随机占优是金融经济学中比较风险资产随机回报的经典工具。一阶随机占优FSD和二阶随机占优SSD最为人熟知。FSD随机变量XFSD 随机变量Y当且仅当对于所有非递减的效用函数X的期望效用都不小于Y。这对应了“任何偏好更多财富非饱和的决策者都会选择X”。SSDXSSDY当且仅当对于所有非递减且凹的效用函数即风险厌恶者X的期望效用都不小于Y。然而经典随机占优假设了一个完全基数、全局一致的效用函数类如所有非递减函数。当我们的偏好信息是部分结构化的由偏好系统(X, R1, R2)定义时我们关心的效用函数类不再是所有非递减函数而是与该系统相容的特定集合U。3.2 广义随机占优的定义与内涵广义随机占优正是经典概念在偏好系统语境下的自然推广。定义设X和Y是两个在偏好系统(X, R1, R2)上取值的随机变量。我们说X广义随机占优于Y记作X ≽_GSD Y当且仅当对于该偏好系统的每一个相容效用表示u ∈ U都有E[u(X)] ≥ E[u(Y)]。这个定义的直观解释非常有力如果在所有与我们现有部分知识相容的、可能的效用世界观下X的期望表现都不差于Y那么我们就可以稳健地宣称X不劣于Y。这种比较结论不依赖于我们武断地选定某一个特定的效用函数因此具有内在的鲁棒性。3.3 GSD 的技术实现与计算从定义看验证 GSD 需要检查无穷多个效用函数这似乎是个不可解的问题。但得益于偏好系统的线性结构我们可以将其转化为一个线性规划可行性问题。离散化与线性约束当结果空间X有限时效用函数u可以表示为一个向量。偏好系统(X, R1, R2)所蕴含的序数和基数信息可以转化为关于这个效用向量的一组线性不等式约束例如u(x) - u(y) ≥ δ ε其中δ是R2关系隐含的最小差ε是一个小的正数用于表示严格不等式。随机变量与期望效用随机变量X和Y的概率分布可能是经验分布给出了每个结果出现的概率。期望效用E[u(X)]和E[u(Y)]就是效用向量的线性组合。线性规划问题要检查X是否 GSDY我们可以构造如下线性规划变量效用向量u以及一个辅助变量t可以理解为Y比X可能的最大优势。目标最小化t或验证是否存在t 0。约束 a) 效用向量u必须满足偏好系统定义的所有线性约束归一化约束通常也需要如指定某个结果为0效用。 b) 对于所有u ∈ U要求E[u(Y)] - E[u(X)] ≤ t。由于U是由线性不等式定义的凸多面体这个“对于所有”的条件可以转化为检查该多面体顶点处的情况或者通过对偶理论转化为另一个线性规划。判定如果该线性规划的最优解t* ≤ 0则意味着即使在最不利于X的相容效用函数下Y的期望效用也无法超过X因此X ≽_GSD Y成立。如果t* 0则 GSD 关系不成立并且t*的大小量化了违背的程度。实操心得在实际编程中我们可以利用成熟的线性规划求解器如Python的PuLP、cvxopt或R中的lpSolve来实现上述检查。关键在于正确地将R1和R2关系编码为线性约束。对于R2关系((x,y), (z,w))对应的约束是u(x) - u(y) ≥ u(z) - u(w) ε其中ε是一个很小的正数如1e-5用于将严格不等式近似为线性约束。处理大量约束时需要注意求解器的性能和数值稳定性。4. 在鲁棒统计中的应用处理混合尺度数据统计推断的核心任务之一是比较——比较分布、比较群体、比较处理效应。当数据维度具有混合尺度时经典方法往往力不从心。GSD 为此提供了一个天然的解决方案。4.1 问题场景多维贫困分析案例假设我们要比较两个地区A和B的贫困状况。我们收集了三个指标收入基数变量连续值单位是货币。教育水平序数变量分类为“文盲”、“小学”、“初中”、“高中及以上”。健康状况序数变量通过调查问卷得分但分数只具有序数意义得分高表示更健康但10分和20分的差距不等于20分和30分的差距。传统的做法可能是分别比较在每个维度上做检验但无法得出整体结论。构造综合指数给每个指标赋权并加总。但权重的选择极具主观性且将序数变量当作基数变量来运算在方法论上是有问题的。一阶随机占优可以用于多维度但要求所有维度都是基数且可加或者要求在所有可能非递减的变换下都成立这在实际的混合尺度场景中条件过于严苛常常无法得到任何结论。4.2 基于GSD的解决方案利用偏好系统和GSD我们可以进行更精细、更合理的比较构建偏好系统X每个个体是三个指标上的一个组合收入值教育等级健康得分。R1定义明确的序数偏好。例如在所有其他条件相同的情况下收入更高更好教育等级更高更好健康得分更高更好。这定义了帕累托占优关系。R2定义部分基数信息。这里的关键是我们只对基数变量收入赋予基数比较能力。例如我们可以设定对于任意个体i和j如果i的收入比j高Δ元并且其他两个维度相同那么((i, j), (k, l)) ∈ R2可以表达为“收入差距Δ所带来的效用提升大于任何仅由序数维度差异如教育从‘小学’提升到‘初中’所带来的最小可感知效用提升”。这需要领域知识来设定一个合理的阈值Δ。更保守的做法是R2只包含收入维度内部的基数比较而不跨维度比较。定义随机变量将地区A和B的居民样本分别视为两个随机变量X_A和X_B它们取值于上述构建的偏好系统空间。执行GSD检验运用第3.3节所述的线性规划方法检验X_A ≽_GSD X_B或X_B ≽_GSD X_A是否成立。解释结果如果X_A ≽_GSD X_B成立其统计含义是在所有与我们设定的混合尺度偏好信息收入是基数的教育健康是序数的相容的效用函数下地区A居民的整体福利期望值都不低于地区B。这个结论是鲁棒的因为它不依赖于对教育、健康维度效用函数的任何特定基数化假设。注意事项R2关系的设定是应用的关键也是引入领域知识的地方。设定过强声称太多基数比较可能导致U集合很小GSD条件很难满足得不出结论。设定过弱只利用R1则退化为一种多维度一阶占优可能无法充分利用基数信息。一个实用的建议是从最保守的、无疑义的基数比较开始如“收入增加1000元带来的效用提升肯定大于收入增加100元带来的效用提升”逐步增加R2约束观察结论的稳健性。4.3 其他统计应用场景医学治疗组比较比较两种疗法结局指标包括生存时间基数、副作用等级序数、生活质量评分序数或区间尺度。GSD可以综合比较避免对生活质量评分进行有争议的加权。金融资产组合比较比较不同投资组合的回报分布同时考虑回报基数和风险通常用方差基数之外的序数因素如ESG环境、社会、治理评级。社会政策评估评估一项政策对多维福祉的影响指标涵盖经济、健康、教育、环境等多个混合尺度的维度。在这些场景中GSD提供了一种原则性的、信息高效的方法将不同尺度的信息整合到一个一致的推断框架中结论对效用函数的具体形式保持稳健。5. 在机器学习中的应多准则算法基准测试机器学习中比较算法性能是永恒的主题。传统的基准测试方法通常存在几个问题1) 聚焦单一指标如准确率忽略其他重要维度速度、内存、能耗2) 对多个指标采用加权求和权重选择主观3) 忽略比较中的统计不确定性将数据集上的性能视为确定值4) 缺乏对推断结论鲁棒性的评估。5.1 构建稳健基准测试框架基于GSD我们可以建立一个满足以下理想的基准测试框架多准则同时考虑多个性能指标。统计性将每个算法在基准测试集上的表现视为一个随机变量因为测试集是总体的一个样本。鲁棒性比较结论应对性能指标间的权衡关系即效用函数的假设保持稳健。实施步骤定义性能指标与偏好系统假设我们比较m个算法在n个数据集上运行评估k个指标如准确率、F1分数、训练时间。对于每个算法a其在第i个数据集上的表现是一个k维向量p_a^i (p_{a1}^i, ..., p_{ak}^i)。我们将所有算法在所有数据集上的表现向量的集合作为偏好系统的载体X。R1定义明确的序数偏好。例如对于准确率和F1分数越高越好对于训练时间越短越好。这定义了每个指标上的帕累托方向。R2定义部分基数信息。这是关键一步。我们需要决定哪些指标间的“交换率”是部分已知的。例如我们可能认为“准确率提升1%所带来的效用至少是F1分数提升1%所带来的效用的2倍”这需要领域知识或决策者输入。或者更保守地我们只对同一种指标的不同数值进行基数比较如“准确率从90%提升到91%带来的效用提升大于从80%提升到80.5%的效用提升”。对于训练时间我们可能设定一个阈值认为“训练时间缩短10秒以上带来的效用提升总是大于准确率提升0.1%带来的效用提升”。这反映了对效率的强烈偏好。建模算法性能为随机变量我们将每个算法a在所有n个数据集上的表现{p_a^1, ..., p_a^n}视为来自某个总体分布的一个样本。因此算法a的性能被建模为一个在偏好系统空间X上取值的随机变量P_a。其经验分布由这n个观测点构成可以赋予每个点权重1/n或采用更复杂的重采样分布。进行基于GSD的成对比较对于每一对算法(a, b)我们检验P_a ≽_GSD P_b是否成立。由于我们只有经验分布这里的检验是统计检验。我们需要计算一个检验统计量例如基于线性规划对偶问题的最优值t*并利用重抽样方法如自助法来估计其抽样分布或计算p值以判断观察到的GSD关系是否在统计上显著。呈现结果GSD前沿类似于帕累托前沿我们可以定义GSD前沿或称为非支配集。一个算法属于GSD前沿当且仅当不存在另一个算法在GSD意义上显著优于它。可视化上可以绘制算法在主要指标上的表现并用有向边连接存在显著GSD关系的算法从占优方指向被占优方。GSD前沿的算法就是那些没有箭头指向它们的节点。5.2 框架优势与实操解读这个框架的强大之处在于结论的丰富性它不仅能给出一个排序还能揭示算法之间的占优关系网络。可能算法A在“高准确率优先”的效用观下占优而算法B在“追求效率”的效用观下占优。GSD检验可以识别出那些在所有相容效用观下都占优的“强”关系。鲁棒性报告通过调整R2约束的强弱我们可以进行敏感性分析。例如逐渐放宽对训练时间权重的假设观察算法A对B的占优关系是否依然成立。这为结论的稳健性提供了量化证据。超越简单排名它避免了像Friedman检验加Nemenyi事后检验那样产生一个单一的、可能掩盖重要权衡关系的总排名。实操心得在实施中最大的挑战是如何合理设定R2约束。一个可行的策略是分层设定核心无争议约束只包含同指标内无可争议的基数比较如准确率90% 80%的效用差肯定大于80% 70%的效用差。领域知识约束引入基于文献或专家经验的跨指标权衡如“在医疗诊断中召回率的权重不应低于精确度的两倍”。决策者偏好约束如果基准测试是为特定决策服务如为某个公司选型可以引入决策者明确的偏好强度陈述。分别在这三个层次上运行GSD分析可以给出从“最保守”到“最贴合特定场景”的一系列结论极大地增强了结果的可解释性和实用性。6. 前沿拓展与未来方向偏好系统与GSD的框架是开放的可以沿着多个方向拓展以解决更广泛的鲁棒决策与学习问题。6.1 与主动学习和偏好学习的结合在交互式系统如推荐系统、专家系统中向用户或专家查询偏好信息是有成本的。偏好系统的结构可以被用来优化查询策略以最少的提问获得最能缩小效用表示集U的信息。例如如果R2关系能揭示哪些效用差比较是信息量最大的系统就可以优先询问这些问题从而更快地定位用户真正的偏好提升查询效率。这与主动学习、贝叶斯优化中的信息获取函数设计思想一脉相承。6.2 处理非独立同分布数据经典的GSD检验通常假设数据是独立同分布的。然而现实数据常有依赖性如时间序列、空间数据或异质性。我们需要发展在非i.i.d.设定下的GSD推断方法。一个思路是利用自助法或子抽样法来构造经验过程并基于此推导检验统计量的极限分布或计算稳健的标准误。另一种思路是将GSD整合到更复杂的统计模型如混合模型、随机效应模型中在模型框架内定义和检验潜在变量的GSD关系。6.3 处理大规模与高维问题当偏好系统的载体X维度很高或结果很多时对应的线性规划问题可能变量和约束数量巨大导致计算困难。研究高效的优化算法至关重要。可以考虑列生成与切割平面法由于U的约束通常只有少数是活跃的可以动态添加约束。对偶问题求解GSD检验的对偶问题往往有更直观的解释如寻找一个“惩罚函数”或“权重分布”来证伪占优关系且有时规模更小。随机化与近似算法当精确计算不可行时可以采样U中的效用函数进行蒙特卡洛近似或者使用随机梯度方法求解松弛后的优化问题。6.4 与深度学习和语言模型的集成当前大语言模型和强化学习从人类反馈中学习的技术如RLHF严重依赖于成对偏好数据。这些偏好通常是序数的A回复优于B回复。偏好系统可以引入部分基数反馈例如“A比B好的程度远大于C比D好的程度”。这为训练提供了更丰富、更结构化的信号可能有助于提升模型学习的稳定性和效率。将GSD用于比较不同策略或模型生成结果的分布可以为RLHF提供一个更稳健的目标函数。7. 常见问题与实战排坑指南在实际应用偏好系统和GSD时会遇到一些典型问题。以下是一些经验总结和解决方案。7.1 如何设定R2关系没有领域知识怎么办这是最常见的问题。R2关系编码了基数强度信息是提升信息效率的关键但也最易引入主观性。策略一保守起步从空集R2 ∅开始。此时GSD退化为基于R1通常是帕累托序的多维占优。虽然结论弱但绝对稳健。策略二利用数据本身对于连续基数变量可以假设效用函数在该变量上是凹的风险厌恶或凸的。凹性意味着“从贫困线以下收入增加1000元带来的效用提升大于从富裕水平收入增加1000元带来的效用提升”。这可以转化为R2约束。策略三敏感性分析将R2的设定参数化。例如假设“指标i的单位提升带来的效用至少是指标j的α倍”。然后让α在一个合理范围内变化观察GSD结论何时发生改变。这能给出结论成立的“假设强度范围”。策略四交互式 elicitation在决策支持系统中可以向决策者呈现一系列精心设计的权衡问题“你愿意牺牲多少单位的X来换取一单位的Y”逐步 elicitate 出R2关系。7.2 GSD检验的统计效力如何样本量小怎么办GSD是一种保守的检验。它要求在所有相容效用函数下都成立因此当U集合很大信息很少时很难拒绝“无占优”的原假设导致统计效力较低。增加样本量最直接的方法。更多的数据可以更精确地估计随机变量的分布减少不确定性。引入合理的R2约束如前所述合理的基数信息能显著缩小U提高检验效力。但务必谨慎确保约束合理。使用放松的占优概念可以考虑ε-占优或概率占优。例如Xε-占优Y如果对于例如95%的u ∈ U有E[u(X)] ≥ E[u(Y)]。这放松了“所有”的要求提高了效力但牺牲了完全鲁棒性。重抽样方法对于小样本自助法或置换检验是估计p值、控制第一类错误的有效手段。虽然计算量大但能更好地反映小样本下的不确定性。7.3 计算复杂度太高特别是维度多的时候怎么办预处理与约简检查R1和R2中是否存在冗余或传递性可推导的约束提前移除。如果结果空间X很大考虑对连续变量进行离散化或分箱但要小心信息损失。利用问题的对称性或其他结构简化线性规划。使用高效求解器对于大规模线性规划商业求解器如Gurobi、CPLEX或开源的高性能求解器如HiGHS远比通用的linprog函数高效。近似算法如前所述可以采用对偶方法、随机采样U中的效用函数进行蒙特卡洛模拟来近似检验。虽然不能保证精确但在许多应用中足以提供可靠的指导。分布式计算如果需要对大量算法对进行成对GSD检验这些检验是相互独立的可以轻松并行化。7.4 如何可视化和解释GSD结果帕累托图增强在传统的二维/三维帕累托散点图上用不同形状或颜色标记出GSD前沿的算法。用箭头连接存在显著GSD占优关系的点从占优方指向被占优方。占优矩阵创建一个热力图矩阵其中单元格(i, j)表示算法i对算法j的GSD检验p值或最优值t*。这能全局展示所有成对关系。效用权重多边形图对于两个算法的比较可以在效用权重空间如果效用是指标的线性加权中绘制出使得算法A优于算法B的权重区域。这能直观显示结论对权重假设的依赖程度。报告结论的层次明确报告结论是在何种假设强度下得出的。例如“在仅使用序数信息(R1)时算法A和B不可比在引入‘训练时间权重至少是内存消耗权重一半’的假设(R2)后算法A显著GSD占优算法B。”7.5 如何处理缺失数据或非精确观测现实数据常有缺失或是以区间形式出现如“收入在1万到2万之间”。偏好系统框架可以扩展以容纳这种不精确性。将不精确观测建模为集合值随机变量如果一个观测的结果不是点x而是集合A ⊆ X表示真实结果位于A中那么该观测对经验分布的贡献就不是一个点质量而是一个均匀分布在集合A上的质量。推广GSD到不精确概率此时随机变量的分布不再是精确的概率测度P而是一个** credal set**概率测度的集合M。GSD的定义可以推广为X占优Y当且仅当对于所有相容的效用函数u ∈ U和所有可能的分布P_X ∈ M_X, P_Y ∈ M_Y都有E_{P_X}[u] ≥ E_{P_Y}[u]。这对应着最坏情况下的比较计算上更具挑战性但理论上是连贯的。实践中的简化对于缺失数据可以采用多重插补生成多个完整数据集在每个数据集上计算GSD关系然后综合结论如看占优关系在多少比例的数据集上成立。