因果机器学习批判:从哲学视角看科学领域中的因果语义

发布时间:2026/5/24 12:21:06

因果机器学习批判:从哲学视角看科学领域中的因果语义 1. 项目概述当“因果”遇见“学习”一场跨越学科的哲学审视最近几年“因果机器学习”在统计学和人工智能领域成了一个炙手可热的话题。从Judea Pearl的“因果革命”到各大顶会层出不穷的因果发现论文似乎我们终于找到了从海量数据中挖掘“真实”因果关系的金钥匙。工具包越来越丰富贝叶斯网络、结构方程模型、do-演算、反事实推理……这些技术承诺能超越传统的相关性分析揭示变量之间“如果…那么…”的深层机制。作为一名长期混迹在数据科学和复杂系统建模领域的从业者我最初也被这种前景所吸引——谁不想让自己的模型更具解释性甚至能进行可靠的干预预测呢然而在实际项目中浸淫越久我越感到一种挥之不去的困惑。当我们把一套基于概率图模型的因果发现算法从一个精心设计的仿真环境比如一个已知数据生成过程的线性系统迁移到一个真实的、开放的复杂系统比如社会经济预测、疾病传播建模或用户行为分析时结果常常变得脆弱甚至误导。我们可能会得到一个漂亮的、稀疏的有向无环图但当我们试图向领域专家比如生物学家或经济学家解释“变量A导致了变量B”时往往会遭遇沉默、质疑甚至是一种根本性的沟通障碍。他们口中的“因果”和我们算法输出的“因果”似乎不是一回事。这正是这篇题为《因果机器学习批判从哲学视角看科学领域中的因果语义》的论文arXiv:2501.05844v3所直面的核心困境。它没有停留在算法调优的层面而是进行了一次深刻的“元反思”。作者们拿起“普通语言哲学”的透镜仔细审视了“原因”这个词在不同科学部落——从物理学、工程学到生物学、医学再到心理学、社会学——中究竟是如何被使用和理解的。他们的核心论点是“因果”的本质是在特定科学范式内部描述机制和影响方式的叙事。脱离了这个具体的语言游戏和领域实践空谈一个普适的、形式化的“因果”定义不仅是徒劳的甚至是危险的因为它可能赋予统计工具一种它们本不具备的、关于世界本质的权威。这篇文章对我而言像是一剂清醒剂。它没有全盘否定因果机器学习的技术价值——在物理和工程等封闭、机制清晰的系统中结构方程模型等方法与领域知识高度契合效果显著。但它尖锐地指出将这些方法及其隐含的“因果充分性”等强假设不加批判地套用到生物学、社会科学等开放复杂系统时我们很可能不是在发现因果而是在制造一种“统计叙事”这种叙事与领域内真实的、多尺度的、涌现的因果机制相去甚远。对于任何正在或将要在实际项目中应用因果推断的数据科学家、研究员或决策者来说理解这种批判视角不仅是学术修养更是避免模型误用、做出可靠判断的实践必需。2. 因果机器学习的技术基石与内在局限在深入哲学批判之前我们必须先厘清被批判的对象——当代因果机器学习——究竟建立在怎样的技术范式之上。这并非为了复述教科书而是为了理解其力量来源与适用边界。主流框架尤其是以Judea Pearl的“因果之梯”和结构因果模型为代表的范式其核心是一种基于概率图模型的“因果发现”与“因果推断”思想。2.1 核心范式从贝叶斯网络到结构方程模型当前因果机器学习的核心数学工具是概率图模型特别是贝叶斯网络。其基本思想非常直观用节点表示随机变量用有向边表示变量间的直接因果依赖关系。整个网络的联合概率分布可以分解为每个节点给定其父节点时的条件概率的乘积P(X1, X2, ..., Xn) Π P(Xi | Pa(Xi))这里的Pa(Xi)就是节点Xi的所有父节点。这个分解之所以强大是因为它利用了图中蕴含的条件独立性假设。通过“d-分离”准则我们可以从图结构读出哪些变量在给定另一些变量时是相互独立的。因果发现的任务在理想情况下就是从数据中逆向工程出这个图结构使得图中蕴含的所有条件独立性关系都与数据相符。注意这里有一个关键但常被忽视的跳跃。贝叶斯网络本质上描述的是概率依赖关系。从“X和Y相关”到“X导致Y”需要额外的假设。最核心的假设之一是因果马尔可夫条件在因果图中每个变量在给定其直接原因父节点时独立于其非后代节点。另一个是忠实性假设数据中表现出的所有独立性都源于图结构而非巧合的参数抵消。正是这些假设试图在概率关联与因果方向之间搭建一座桥梁。为了处理时间序列数据动态贝叶斯网络被引入它将网络按时间切片并允许变量在不同时间点之间产生依赖。这更贴近我们理解中“原因在先结果在后”的时序直觉。而结构方程模型则进一步将贝叶斯网络中的条件概率关系具体化为函数方程。例如一个简单的线性SEM可以写成Xi Σ αij * Xj εi, 其中εi是独立噪声项。在这个框架下因果效应被 Pearl 的do-演算形式化。P(Y | do(Xx))表示对变量X进行干预将其固定为值x后Y的分布。这与观察到的条件概率P(Y | Xx)有本质区别后者可能混杂了反向因果或共同原因的影响。2.2 理想与现实的裂缝那些难以满足的强假设上述框架在数学上优雅在仿真中强大。但一旦踏入现实数据的泥潭其基础假设就开始松动。论文犀利地指出了几个根本性问题因果充分性假设的脆弱性这是最致命的弱点。该假设要求数据集中包含了所有影响观测变量的共同原因。换句话说没有未观测的混杂因子。在物理实验室的封闭系统中或许可以通过精密设计逼近这一条件。但在社会科学影响个人收入的因素无穷无尽、生物学基因、环境、微生物组、甚至许多工程系统中未知的环境扰动这几乎是一个无法满足的幻想。一个未观测的潜变量就足以让整个因果图的结构推断产生严重偏差。条件独立性检验的实践困境论文提到一个发人深省的事实在真实数据的研究中极少有论文能找到一个其所有条件独立性假设检验都通过的图结构作者甚至声称未能找到一个这样的例子。在实践中我们通常使用卡方检验、偏相关、基于核的独立性度量等方法进行检验。但这些检验本身依赖于分布假设在有限样本、非线性关系或存在测量误差时其效力大打折扣。我们常常是在一系列不完美的检验中选择一个“最不坏”的图而非一个被“证实”的因果结构。模型表示的归纳偏置选择用什么样的图结构线性非线性何种参数化形式本质上是一种强先验即归纳偏置。我们选择用线性结构方程还是某种神经网络来建模决定了我们能发现什么样的“因果”。正如奎因所指出的我们的知识是一个网络面对反例时我们可以调整核心理论也可以调整辅助性假设比如测量误差的分布。因果机器学习模型的选择就是这个网络中的一个可调节点。将模型结构的稀疏性如压缩感知启发的思想接等同于因果机制的简洁性奥卡姆剃刀是一种危险的类比。世界的真实机制未必稀疏也未必能用我们选择的模型族优雅地表示。实操心得在我的项目中面对用户行为数据尝试进行因果发现时我们曾满怀希望地应用了最新的基于约束或基于分数的因果发现算法。结果往往得到数十个甚至上百个可能的等价类图。当引入领域知识进行部分约束后图结构稳定了一些但任何一个微小的先验设置变化比如哪些边必须存在或不能存在都会导致最终图的巨大改变。这让我深刻体会到在开放系统中数据本身提供的关于因果方向的信息极其微弱算法输出高度依赖于我们输入的先验——而这恰恰是领域知识本身而非数据挖掘的结果。3. 科学哲学的透镜因果语义的领域依赖性如果技术工具本身具有如此强的局限性那么我们该如何理解科学实践中那些成功的“因果”主张呢论文转向了科学哲学和普通语言哲学为我们提供了一个更具包容性和解释力的视角。3.1 从休谟到奎因因果认知的哲学脉络哲学史上对因果关系的追问源远流长。大卫·休谟的怀疑论给了我们沉重一击无论我们观察到事件A先于事件B发生多少次都无法逻辑必然地推导出A是B的原因。我们所谓的因果不过是基于恒常联结的习惯性联想。伊曼努尔·康德试图挽救因果的必然性将其视为人类认知的先验范畴之一是我们理解世界不可或缺的脚手架。卡尔·波普尔提出了可证伪性作为科学理论的划界标准。一个因果理论必须能够做出可被实验证伪的预测。这在物理学中运作良好但在生物学、社会科学中许多理论难以做出精确的定量预测但这并不妨碍它们产生有用的疗法或政策如认知行为疗法对抑郁症有效尽管其背后的因果心理模型可能与其他有效疗法截然不同。托马斯·库恩的范式理论更进一步。他指出可证伪性本身也依赖于一个更大的、通常不可证伪的“范式”背景。科学家在范式内工作用范式提供的工具和概念解决问题。当反常积累到一定程度可能引发科学革命范式发生转换。因果解释在很大程度上是内在于一个科学范式的。威拉德·奎因的“知识网络”比喻对我启发尤深。他认为我们的知识是一个整体性的网络边缘是与经验直接接触的节点中心是更抽象的逻辑和数学命题。当新的经验实验数据与网络预测冲突时我们可以调整网络边缘的具体假设也可以尽管更艰难修改网络中心的核心法则。因果主张的可靠性取决于它在整个知识网络中的位置以及与其他节点的连接强度。一个孤立的、仅由统计模型支持的因果断言就像是网络边缘一个脆弱的、连接稀疏的节点。3.2 普通语言哲学下的“因果”语义分析路德维希·维特根斯坦的“普通语言哲学”主张哲学问题往往源于对语言用法的误解。要理解一个词如“原因”的意义不是去寻找一个抽象的本质定义而是去考察它在各种具体的“语言游戏”中是如何被使用的。论文据此分析了不同科学领域“因果”话语的差异物理学与工程学这里的因果语义最接近结构方程模型。因果机制被编码在微分方程、场方程之中。例如“引力导致苹果下落”可以完全转化为牛顿运动定律或爱因斯坦场方程中的一项。“原因”就是动力学方程右端的驱动力项。实验可以在高度封闭、变量可控的系统中进行验证5σ显著性。因果主张与数学表述之间存在近乎一一对应的关系。生物学与医学系统是开放的涉及从分子、细胞、组织、器官到个体、种群的多尺度涌现现象。我们无法从量子力学方程直接推导出细胞凋亡的因果链条。因此生物医学中的因果主张建立在证据的聚合之上从流行病学的统计关联到动物模型的实验验证再到细胞分子水平的机制阐明如某种化合物如何与受体结合触发信号通路。吸烟致癌的共识正是通过数十年间统计学、病理学、生物化学等多层面证据的汇聚才得以确立。单一的统计模型无论多精巧在这里不足以宣称发现了因果。社会科学系统复杂度更高涉及意识、文化、制度等难以量化甚至难以观测的变量。可重复性危机凸显了单一统计研究的脆弱性。然而社会科学并非无用。论文引入了诠释学的视角社会科学提供的是一种诠释性真理。一个关于社会现象的因果叙事如韦伯在《新教伦理与资本主义精神》中的论述即使无法像物理定律那样精确预测也能为我们理解社会运作、个体行为提供极具启发性的框架和意义。它的“真理性”在于其启发性、共鸣性和工具性价值能帮助个体和社会更好地理解自身处境并做出选择。核心洞见因此“原因”不是一个跨越所有学科的、统一的、等待被“发现”的实体。它是一个功能性的概念其具体语义和确立标准内嵌于特定科学共同体的实践、方法和目标之中。物理学家、生物学家和社会学家都在说“A导致B”但他们说这句话时所做的事情、所依赖的证据类型、所声称的确定性程度是截然不同的。4. 跨学科实践构建稳健因果主张的方法论认识到因果语义的领域依赖性并不是要陷入相对主义或否定因果推断的价值。恰恰相反它为我们提供了一份更清醒、更负责任的实践指南尤其是在处理开放复杂系统时。论文倡导一种“跨抽象层的混合方法”这对于从事数据科学、计算社会科学、生物信息学等交叉领域的研究者至关重要。4.1 从单一模型到证据三角验证在封闭的物理或工程系统中一个经过充分验证的数学模型如一组微分方程本身就可以作为因果机制的权威表述。但在开放系统中我们必须放弃这种“银弹”思维。可靠因果主张的建立依赖于来自不同层次、不同方法、不同学科的证据的汇聚与和谐。这被称为证据三角验证。以一个假设“童年逆境导致成年后的职业焦虑”为例如何构建一个相对稳健的因果叙事统计证据层进行大规模问卷调查或利用现有队列数据在控制可能的混杂因素如社会经济地位、遗传因素后检验童年逆境评分与成年职业焦虑量表得分的统计关联。可以使用因果推断技术如倾向得分匹配、工具变量来逼近干预效果但必须清醒认识到其假设的局限性。机制证据层生物学/心理学寻找连接两者的生物学或心理学机制。例如研究长期压力对大脑杏仁核和前额叶皮层发育的影响神经科学层面或者探究早期不安全感如何塑造个体的“依恋模式”和“认知图式”发展心理学层面。动物模型可能提供受控实验下的机制证据。诠释与叙事层诠释学通过深度访谈、个案研究、历史或文学分析理解“童年逆境”和“职业焦虑”在个体生命经验和文化语境中的具体含义。不同的心理治疗流派精神分析、认知行为、人本主义可能会提供截然不同但各自自洽的因果叙事如“未解决的内在小孩创伤” vs. “功能不良的认知信念”。这些叙事本身具有解释力和疗愈价值。进化与功能层从进化心理学角度提出假设在远古环境中对不可预测环境的早期警觉源于逆境可能是一种适应性特质有助于生存但在现代稳定的职业环境中这种高度警觉可能表现为适应不良的焦虑。只有当来自这些不同层面的证据指向一致的方向时我们的因果主张才具有说服力。单一层面的证据无论统计显著性多高都是不充分的。4.2 认知科学一个跨学科研究的范本论文特别以认知科学为例展示了多学科融合如何深化我们对“心智因果”的理解。认知科学天然地融合了哲学、心理学、神经科学、计算机科学、语言学、人类学等。多层次描述马尔的计算-算法-实现三层次理论为理解心智现象提供了框架。我们可以从计算层面心智要解决什么问题、算法层面用什么计算策略和实现层面大脑硬件如何执行分别探讨因果。一个决策原因如何导致一个行为结果可以在博弈论计算、启发式搜索算法和神经回路激活实现等不同层次上得到描述。多工具融合研究一个认知任务如恐惧学习时可以同时结合行为实验测量反应时和正确率。脑成像fMRI观察相关脑区如杏仁核、前额叶的血氧信号变化。脑电EEG/MEG捕捉毫秒级的神经振荡活动。计算建模用强化学习模型或贝叶斯推理模型来拟合行为数据并比较不同模型的优劣。现象学报告让被试描述其主观体验。 没有任何单一方法能提供全貌但它们的结合能相互约束和印证构建一个更立体的因果解释。接纳多元解释对于同一现象如意识可能存在来自不同范式、看似竞争的解释全局工作空间理论、整合信息理论、预测加工理论等。在开放复杂系统研究中我们可能需要学会与这种多元性共存视其为“更多的手触摸大象”从不同角度丰富我们的理解而非急于判定唯一真理。实操心得在我参与的一个数字心理健康干预项目中我们试图分析某类正念练习对减轻焦虑的“因果”效果。我们不仅做了随机对照试验RCT并进行了因果中介分析统计层还与合作神经科学家进行了小规模的fMRI研究观察练习前后大脑默认模式网络活动的变化机制层。同时我们收集了用户的质性访谈数据分析他们如何叙述练习改变其与焦虑想法关系的过程叙事层。最后我们从进化角度探讨了正念可能如何调节古老的“威胁检测系统”功能层。这种混合方法的研究报告远比单纯呈现一个RCT的效应量d值更能让读者包括领域专家和潜在用户理解并信任我们所描述的“因果”过程。5. 对从业者的启示在喧嚣中保持清醒这篇哲学批判并非要扼杀因果机器学习的研究热情而是呼吁一种更具反思性、更谦逊的实践态度。对于一线从业者我有以下几点基于自身经验的体会警惕“因果”一词的滥用当你的模型输出一个“因果图”或“因果效应估计”时请务必在心中为其加上引号。明确告知你的合作者或读者这是在特定模型假设下如无未测混杂、正确的函数形式等对潜在因果结构的一种估计。它更接近一种“假设生成器”或“敏感性分析工具”而非真理的宣判书。用论文中的话说避免语言对智力的“蛊惑”。将领域知识置于核心地位因果发现不应是纯数据驱动的黑箱操作。在项目开始前与领域专家深度合作构建一个基于现有知识的“先验因果图”或至少是一组“可能的边”和“不可能的边”。将你的算法视为在领域知识约束下进行探索和精细化假设的工具。在生物学中这意味着要理解通路在经济学中这意味着要理解理论模型和制度背景。拥抱复杂性采用混合方法对于重要的、复杂的决策问题不要满足于单一的因果模型。积极寻求多源数据观测数据、实验数据、调查数据、文本数据和多方法融合统计模型、机制模型、质性分析、仿真模拟。进行广泛的稳健性检验和敏感性分析看看你的结论在改变模型设定、考虑不同混杂因素时是否依然成立。区分解释性与干预性目标有时我们构建因果模型是为了理解机制解释性有时是为了预测干预效果干预性。后者对假设的要求更为严苛。一个能很好预测干预do(X)效果的模型未必能正确揭示所有变量间的因果结构。明确你的主要目标并选择与之匹配的方法和评估标准。重视沟通与叙事最终你的分析结果需要被他人理解和使用。学习用你的领域合作者能听懂的语言讲述“因果故事”。这意味着你可能需要将贝叶斯网络中的条件概率翻译成生物学家熟悉的“调控通路”或社会学家熟悉的“结构动力”。同时坦诚地说明故事的局限性、假设和不确定性。一个诚实、透明、融合了多维度证据的叙事远比一个包装精美但根基脆弱的“因果发现”更有长期价值。因果机器学习是一个强大且仍在快速发展的工具箱。但就像任何强大的工具一样其价值不仅取决于其本身的精巧更取决于使用者对其适用范围和局限性的深刻理解。这篇哲学批判论文的价值就在于它迫使我们停下技术狂奔的脚步回头审视我们使用“因果”这一概念时所站立的地基是否坚实。在开放系统的复杂性与不确定性面前保持知识的谦逊进行跨学科的对话采用多元方法的三角验证或许才是我们接近“真相”——或者说构建更有用、更负责任的科学叙事——的更可靠路径。最终科学的价值不仅在于做出漂亮的预测更在于增进我们对于这个纷繁世界的连贯且可操作的理解。

相关新闻