
源自风暴统计网一键统计分析与绘图的网站上一篇我们学习了倾向得分方法明白了如何通过平衡协变量分布来模拟随机化实验的效果。但倾向得分方法仍然依赖于Logistic回归等传统模型来估计倾向得分。当协变量数量激增、变量之间关系复杂、非线性与交互效应普遍存在时传统模型的设定能力面临挑战。那有没有一种方法能够借助现代计算技术在保持因果推断严谨性的同时应对高维、非线性、复杂交互的数据环境有。这就是今天要讲的主题——机器学习与因果推断的结合。研究环境的变化与两类问题的区分正文开始之前我们先来了解一下研究环境的变化。数据规模不断扩大样本来源更加多样。协变量数量显著增加变量维度越来越高。数据关系更加复杂非线性与交互效应普遍存在。研究目标逐渐从描述现象转向支持实际决策。传统低维、线性建模方法在这样的环境下面临着越来越多的挑战。在这种背景下我们需要清晰区分统计分析中两类本质不同的问题预测问题和因果问题。√预测问题预测问题关注的是在给定信息条件下结果是否会发生强调相关性结构与预测准确性。表现为在给定协变量X的情况下预测结果Y。研究目标是学习条件分布P(Y|X)或条件期望E(Y|X)。模型的优劣主要通过预测误差进行评估常见评价指标包括MSE、AUC、对数损失等。模型结构本身不要求反映真实的数据生成机制。√因果问题因果问题关注的是当主动改变某个变量时结果是否会改变强调干预效应与反事实比较。表现为干预变量A对结果Y的影响。研究者希望比较同一对象在不同干预状态下的结果典型问题包括如果接受处理与不接受处理相比结果是否不同因果问题关注的是结果差异而非单一结果的预测这类问题天然涉及反事实结果。两类问题的研究目标和评价标准并不相同。相关性≠因果关系这是一个必须反复强调的核心观点高预测准确性并不保证因果判断正确。预测模型学习的是变量之间的统计关联而相关性可能来自混杂、选择偏差或反向因果。在没有因果结构约束的情况下模型无法区分因果方向。因果问题回答的是“如果我干预会发生什么变化”。举一个经典的例子冰淇淋销量与溺水人数的关系。冰淇淋销量上升时↑溺水人数也上升↑两者高度相关。但如果据此推断“冰淇淋导致溺水”那就是错误的。真相是温度或季节是共同原因即混杂因素。从这个案例中我们可以得出预测模型可以利用相关性但因果推断必须处理混杂结构。人工智能、机器学习与深度学习的基本概率在进入正题之前我们先厘清三个容易混淆的概念。人工智能AI是让机器表现出“智能行为”的总称。机器学习ML是实现人工智能的一类数据驱动方法。深度学习DL是机器学习中的一类模型方法。三者的关系是√那么什么是机器学习机器学习是一类从数据中自动学习规律的方法。给定输入变量X学习预测输出Y。研究目标是在未知数据上最小化预测误差。模型不要求反映真实的数据生成机制强调预测性能与泛化能力而非因果解释。机器学习的形式化目标是通过最小化损失函数来学习模型参数或结构。回归问题常使用平方误差作为损失函数分类问题常使用对数损失或交叉熵。模型训练过程中通常加入正则化以控制复杂度。模型优劣通过样本外预测性能进行评估。机器学习的一般建模流程包括四个步骤第一步数据划分分为训练集、验证集和测试集。第二步模型选择与超参数调优。第三步交叉验证评估预测性能。第四步选择预测表现最优的模型。整个流程关注的是预测效果而非因果解释。传统统计方法与机器学习的对比传统统计与机器学习在多个维度上存在明显区别。√机器学习的优势机器学习的优势主要体现在高维与自动化以及减少模型设定负担两个方面。在高维与自动化方面机器学习可处理高维协变量变量多、交互多。内置变量选择或特征筛选如正则化、树分裂、嵌入式选择能够降低过拟合风险。自动捕捉非线性与复杂交互如树模型、Boosting、神经网络等。可扩展性强适用于大样本、并行、分布式计算。在减少模型设定负担方面传统回归常依赖线性假设、函数形式指定、交互项手工加入。机器学习更像“函数逼近器”对形式错设在预测意义上更加鲁棒。对复杂数据结构文本、图像、序列有天然优势。在工程应用中可快速迭代数据更新、模型更新、性能更新。√机器学习的局限尽管机器学习在预测方面表现出色但它也有明显的局限性。机器学习主要学习的是统计相关性无法区分混杂因素与真实因果效应。干预后数据分布可能发生变化预测模型可能失效。高预测能力的变量不一定是可干预变量。复杂模型往往缺乏可解释性。更重要的是高预测不等于好决策强预测因子不一定是可干预因素准确识别高风险人群不等于能够有效降低风险。决策关心的是改变可控变量是否改变结果即可干预性。一句话总结因果推断是决策语言机器学习是建模工具。因果推断定义、框架与识别接下来我们转向因果推断。因果推断是研究干预对结果的因果影响的一类方法。它基于反事实思想来定义因果效应比较不同处理状态下的潜在结果。输出是因果效应而非预测值。因果推断在实际应用中覆盖面很广包括政策评估、医疗决策和社会科学研究等。潜在结果框架是因果推断的理论基石。在这个框架下每个个体都有两个潜在的结局Y(1)表示接受处理A1时的结果Y(0)表示未接受处理A0时的结果。基于此可以定义个体因果效应τi Y(1) - Y(0)以及平均因果效应ATE E[Y(1) - Y(0)]。然而现实中的根本困境在于同一时间只能观察到一个潜在结果另一个永远无法被观测到。反事实的不可观测性正是因果推断面临的核心挑战。因果推断不是简单地“拟合一个模型”而是要确保效应可被识别。常见的识别思路有两种随机对照试验依靠随机化来消除混杂这是最理想的情况而观察性研究则必须依赖一定的假设或研究设计如可交换性假设等。这里需要区分两个概念识别解决的是“理论上能否得到因果效应”的问题而估计解决的是“用什么样的统计方法把它算出来”的问题如回归、IPW、G方法等。从优势来看因果推断能够回答“干预是否有效”这一核心问题而不是仅仅停留在“是否相关”的层面。它可以支持政策、治疗、产品策略的效果评估具有较强的可解释性能够明确效应的大小和方向以及告诉我们对哪些人群有效。此外因果推断还可以用于反事实推演和资源配置决策如成本收益分析和优先级排序同时它也强调结果稳健性包括敏感性分析和识别假设的讨论。当然因果推断也面临不少挑战。观察性数据中普遍存在混杂变量这是最主要的困难。此外非线性与交互关系使得简单模型容易错设而因果效应的估计结果又高度依赖模型的设定是否合理。机器学习与因果推断的结合需要明确的是机器学习并不是直接用来“计算因果效应”的它的角色是帮助估计一些“中间量”。具体来说机器学习可以估计两类中间量一是倾向性评分P(A|X)即个体在给定协变量条件下接受处理的可能性二是结果模型E(Y|A,X)即结局如何由处理变量和协变量共同决定。而因果推断的角色则是定义清楚目标因果效应如ATE或ATT通过因果假设来保证效应在理论上可以被识别再将这些估计量整合起来最终得到因果效应的估计值。当机器学习与因果推断结合起来会带来多重优势。√在减少模型错设偏差方面机器学习能够自动捕捉非线性与交互关系从而降低因模型形式错设所导致的偏倚。√在提升稳健性方面双重稳健估计量如AIPW、TMLE天然兼容机器学习方法。这意味着即使其中一个模型倾向得分模型或结局模型被错误设定估计结果仍然可以保持一致。√在应对高维混杂变量方面在假设无混杂成立的前提下机器学习能够提高对高维混杂因素的建模能力从而降低模型错设带来的偏倚。√在支持异质性效应分析方面机器学习可以识别不同亚组之间的处理效应差异为个性化干预与精准决策提供基础。需要特别强调的是机器学习本身并不引入新的因果信息。它无法修复未观测混杂、测量误差或选择偏差等问题。因果识别所需要的假设仍然必须由研究者基于领域知识进行论证和说明。本章总结今天我们系统学习了机器学习与因果推断的结合。我们看到机器学习在预测与建模方面具有显著优势能够自动处理高维、非线性、复杂交互的数据。同时我们也明确了预测问题与因果问题在研究目标上是根本不同的预测关注的是相关性而因果关注的是干预效应。因果推断在干预与决策问题中具有不可替代的地位它回答的是“如果改变某个变量结果会怎样”这一核心问题。现代因果分析确实需要借助机器学习来提升建模能力和结果稳健性但机器学习并不能替代因果识别的假设两者之间的关系是工具与框架的关系各有分工、相辅相成。下一篇我们将继续深入机器学习在因果推断中的应用重点介绍机器学习的具体用途以及Super Learner方法。敬请期待关于郑老师团队及公众号郑老师团队统计服务为医学生、医护工作者学术研究提供统计支持1.医院数据真实世界研究影响因素分析与焦点因素分析策略倾向性评分方法匹配、逆概率加权IPTW、重叠加权及后续效应值估计亚组分析交互作用P值及森林图中介交互分析、因果中介分析限制性立方样条、阈值效应分析、区段回归分析2.临床预测模型二分类及生存基于回归方法的预测模型构建与验证绘制列线图机器学习预测模型构建与验证可解释性SHAP绘图缺失数据下的预测模型预测模型在线网站建设动态预测模型影像组学预测模型3.纵向数据分析重复测量ANOVA、混合线性模型LMM、广义估计方程GEE、广义线性混合效应模型GLMM、潜增长曲线模型LGCM群组轨迹模型(GBTM)/潜类别增长模型(LCGA)、潜类别混合增长模型(GMM/LGMM)、多轨迹模型GBMTM聚类分析时依协变量模型多状态模型4.高级因果推断方法实践参数G方法、双重稳健估计进行因果推断目标最大似然估计TMLE机器学习、超级机器学习进行因果推断治疗效果异质性分析HTE与因果森林5.公共数据库数据挖掘NHANES数据挖掘、CHARLS等老年库数据挖掘、MIMIC数据挖掘多变量孟德尔随机化MR、中介MR、肠道菌群MR、药靶MR、网络药理学结合MR、单细胞RNA测序分析结合MR需以上统计服务请联系郑老师团队微信sas555777