回归控制混杂偏倚的过程 【9天实用统计学公益训练营Day3-2】

发布时间:2026/5/22 18:42:22

回归控制混杂偏倚的过程 【9天实用统计学公益训练营Day3-2】 关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 3-2 回归控制混杂偏倚的过程现在继续介绍课程第三章第二节的内容回归方法控制混杂偏倚。大家都知道回归可以用来探讨影响因素。今天我们就来讲讲回归还可以控制混杂偏倚这是个非常重要的理念。要学会用回归来控制混杂偏倚挑选那些潜在的混杂因素这样实用医学统计学才能真正学到位。观察性研究为什么需要回归方法上一讲我们提到观察性研究要结合回归的方法因为观察性研究分组不均衡存在混杂偏倚。要开展因果推断就需要用高级的方法如回归、倾向得分方法等。回归是基本的也是主流的方法。常见的回归方法如线性回归、Logistic回归、Cox回归、泊松回归、负二项回归、混合效应模型、广义估计方程等都可以用于控制偏倚。√为什么回归可以控制混杂我们还是以上一节的“分析接种疫苗对住院率的影响”的这个文章为例已知年龄是混杂因素。假设我们先不控制混杂做一个单因素Logistic回归分析疫苗接种与住院的关系。用公式展示则为模型中的回归系数β值反映的是疫苗的作用大小但实际上这个β值并不是疫苗真正的效应而是疫苗和年龄的综合效应年龄作为第三方因素带来了混杂。如果做一个多因素回归结局住院由两个因素建模年龄和疫苗。年龄对疫苗的混淆被单独拿出来变成一个新的回归系数β1反映年龄对住院的影响。而β2反映的就是疫苗的作用剔除了年龄的影响结果更真实地反映疫苗接种的效果。多因素回归把各个因素的作用单独拿出来探讨每个因素的作用称为独立的作用独立的影响因素。所谓独立就是剔除了其他因素的干扰在这里就是剔除了年龄的干扰也就剔除了混杂偏倚。实例单因素和多因素的结果差异依旧是这篇“探究流感疫苗接种与慢性阻塞性肺疾病COPD患者住院率的关系”的文章。研究团队进行了单因素和多因素分析。从数值上来看单因素分析中疫苗与住院之间的OR值为1.339疫苗接种似乎促进住院。但在多因素关系中研究结果显示OR值等于1.001P值大于0.05这意味着剔除了年龄的干扰后疫苗接种对住院率无影响。这就是多因素研究的价值。单因素多因素存在着差别是因为接种组老年人比例高而老年人住院楼率高因此造成接种组住院率较高。√回归实现的两个目的· 探讨因果关系分析影响有无及大小多因素回归在第二章讲过可以用来探讨影响因素它可以同时探讨多个因素提高效率。也可以聚焦于一两个暴露因素讨论疫苗接种的作用剩下的其他因素就是混杂因素或潜在混杂因素。同样的模型作用是不一样的。· 探讨因果关系分析影响有无及大小另外回归通过构建模型可以预测结局。通过构建预测方程输入X1、X2、Xm就可以预测Y。临床预测模型部分我们后续还会再讲。因此回归可以实现至少两个目的一是探讨影响因素此时各个自变量地位相等都是影响因素二是控制混杂此时分为目标因素和混杂因素主要关注目标因素的效应排除其他因素的干扰。建模策略是一样的只是侧重点不同。我们来看两个例子。场景一探讨多个因素的作用某医师基于某医院开展病例对照研究探讨冠心病有关的影响因素包括年龄、性别、心电图异常、高血压、糖尿病等。此时希望研究各个因素的作用各因素地位平等。研究团队构建多因素Logistic回归模型每个因素发挥独立作用当P值小于0.05时称为独立的影响因素。结果显示性别、年龄、心电图、高血压都是独立的影响因素。场景二探讨一两个因素的作用同样例子中只关心高血压状态与冠心病的关系。由于观察性研究中高血压组和对照组在一些变量性别、年龄、糖尿病等上分组不均衡这些变量是潜在的混杂因素。统计分析时可以做出表格将其他因素的结果弱化。例如只描述主要暴露变量的作用表格中列出unadjusted未调整和adjusted调整后的结果备注中写明调整了性别、心电图异常、糖尿病等变量。这些变量是潜在的混杂因素通过模型调整控制了它们对高血压的干扰。未调整就是未控制混杂因素的影响调整就是控制了混杂因素的影响。今后看到论文中的adjusted for往往就是用多因素回归控制了混杂偏倚。√回归控制混杂的基本过程回归控制混杂的基本过程可以分为四个步骤第一步统计描述。第二步识别潜在混杂因素分组不均衡的因素。第三步做单因素关联性分析。第四步做多因素关联性分析控制混杂。案例中老年人抑郁症状与跌倒事故的关联研究基于中国健康与养老追踪调查CHARLS--这是一个队列数据从2011年随访至2020年--的12,527组数据。选取2011年的抑郁症状数据与2013年的跌倒数据进行分析。露变量是2011年的抑郁症状根据问卷得分分为有症状≥10分和无症状结局是2013年的跌倒二分类。用Logistic回归计算OR值调整后的OR值为1.1995%置信区间为1.07-1.33P值小于0.05说明抑郁症与后续跌倒存在统计学关联。第一步统计描述。做二分类表分组描述年龄、性别、BMI、体重、吸烟、饮酒等变量。第二步分组均衡性分析。不同暴露组之间是否有差异挑选不均衡的因素作为潜在的混杂因素。方法就是做差异性分析用t检验、方差分析、卡方检验P值小于0.05认为分组不均衡。以抑郁组有症状和无症状为分组变量分析各个组别的差异性。P值小于0.05说明组间不均衡。需要注意的是样本量越大P值越小。第三步单因素分析。单因素分析是简单关联性分析初步探讨因素与结局的关系。方法包括做差异性差异即相关和做回归。以跌倒为结局抑郁症状为暴露两者都是二分类可以比较有症状组和无症状组的跌倒发生率用卡方检验也可以用单因素回归直接计算OR值。第四步多因素回归。基于第二步挑出来的分组不均衡因素与暴露因素一起构建多因素模型控制混杂偏倚从而更可靠地探讨暴露因素与结局的关联。线性回归用于定量结局Logistic回归用于分类结局泊松回归和对数二项回归也可用于分类结局生存结局用Cox回归。本章总结以上就是用回归方法控制混杂偏倚的基本过程。这个方法不难通过这个过程的学习希望大家能够掌握它的基本用途。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665

相关新闻