
关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 2-3 回归方法的建模策略现在我们继续回归方法的建模策略。统计建模找关联√什么是回归统计分析过程的第三步是统计建模常见方法为回归分析。回归是建立数学方程研究变量之间的数量依存关系。最基本的线性方程为y 称为因变量是结局x 称为自变量是因。因影响果x 影响y y 依赖x 而改变。x 对 y 的作用大小称为回归系数b 。y a bx是一元线性方程a为截距b为斜率在统计学中b 反映x 对y 的作用大小即y 对x 的依赖程度通过回归可探讨各自变量对y是否有影响计算P值以及作用多大计算回归系数b值。e称为残差是预测值abx与真实y之间的误差。残差越小说明x对y的预测越精准模型越好。√三大回归方法基本的回归方法有三种线性回归结局为定量数据、Logistic回归结局为分类数据尤其是二分类、Cox回归结局为生存时间资料。· 线性回归详解线性回归用于定量数据建模。公式为实际研究中y往往受多个x影响方程为多项线性方程包含X1、X2等多个自变量对应回归系数β1、β2、β3分别反映各自变量的作用大小。线性回归可探讨影响因素、控制混杂、建立预测模型。线性回归有三个关键指标第一回归系数β值反映x对y的影响。β值表示x每增加一个单位时y的改变量。第二P值反映x对y的影响是否真实存在。若P值0.05说明影响不存在若P值0.05认为x对y的影响存在β不等于0属于小概率事件。第三回归系数的95%置信区间反映总体参数的不确定性。案例我们来看一个使用线性回归的实例。例如这篇中国老年慢性病患者生命质量现状及影响因素研究。生命质量为定量数据要做影响因素研究我们可以构建线性回归方程。研究结果显示饮酒、社交活动、慢病类型种类、养老保险对生命质量的影响有统计意义P值均0.05。慢性病种类β值为-0.026表示在其他自变量不变的情况下慢性病种类每增加一个等级生命质量得分平均下降0.026分。基于回归系数可构建生命质量与各因素的回归方程从而预测生命质量、探讨影响因素、构建预测模型。分析表格中每个指标均包含回归系数、P值和95%置信区间。· Logistic回归详解Logistic回归用于分类结局尤其是二分类结局。二分类结局无法直接建立线性方程但可通过计算阳性率P再对P/(1-P)取对数logit转换与x建立线性关系从而探讨x对阳性率的影响。Logistic回归可探讨影响因素、控制混杂偏倚、建立预测模型。此时x对p的作用通过eβ表示即OR值。OR值1说明x促进阳性事件发生OR值1说明x降低阳性事件发生概率OR值1说明x与阳性事件无关联。Logistic回归的核心是关注OR值是否等于1OR值反映x对y的作用大小。案例当研究团队想要探究初治继发肺结核患者治疗过程中并发颈部淋巴结核的危险因素结局为二分类是否并发可以采用Logistic回归。研究结果显示发生口腔黏膜炎、上呼吸道感染和痰菌阳性是并发颈部淋巴结核的危险因素P均0.05。· Cox回归详解Cox回归常用于随访的队列研究或者RCT研究结局为双结局生存时间和生存结局是否生存。两个结局结合可计算阳性事件发生速率h(t)相当于阳性事件发生率。同样Cox回归可以探讨 x 对阳性事件发生速率的影响分析各因素是促进还是延缓事件发生。HR值反映风险比HR1说明促进事件发生提高风险HR1说明延缓事件发生降低风险HR1说明无关。Cox回归同样可探讨影响因素、控制混杂偏倚、构建预测模型。·Cox回归的双结局特点Logistic回归计算阳性率时要求随访时间一致如一年或两年且无失访。但队列研究中随访时间往往不一致且容易失访。例如高血压患者终点为脑卒中发病起点和终点时间各不相同部分患者可能失访、死于其他疾病或至截止时间仍未发生阳性结局。此时无法计算阳性事件发生率因此将单一结局改为两个结局是否发生阳性事件是否失访以及阳性事件发生前经历的时间生存时间。生存分析与生存时间、阳性率密切相关。生存分析要求采集生存时间和生存结局建模后计算HR值HR1促进事件发生HR1延缓事件发生HR1无关。√回归方法的核心价值首先做一个小结回归方法的核心应用是构建一个尽可能接近真实世界的模型来模拟真实环境下健康结局的发生过程。因为在实际中健康结局比如疾病的发生往往不是由单一原因导致而是多种因素共同决定的结果。多因素回归中结局y往往同时受到多个因素的作用。应用一研究影响因素基于这个思路回归方法的第一个基本应用是研究影响因素的有无及大小。在多因素回归中结局Y往往同时受到多个因素的作用我们需要探讨哪些因素是真正的影响因素以及它们的影响程度有多大。例如在“抑郁症的现况及其影响因素研究”中抑郁症的发生会受到个体特征、家庭环境、社会因素、自然环境等多个方面的影响研究者就需要通过回归模型来分析这些因素是否真的起作用。应用二预测与分类回归方法的第二个重要应用是预测与分类。无论是线性回归、Logistic回归还是Cox回归都可以用来构建医学预测模型。例如在“老年人抑郁症发生临床预测模型”中我们可以根据人群的多项特征预测其未来发生抑郁症的概率从而实现对高危人群的早期识别。除了探讨影响因素和构建预测模型回归方法后续还会讲到另一个关键用途——控制混杂偏倚这里先做一个预告。回归建模的策略回归建模需要考虑的细节有很多它对因变量和自变量均有要求还可能面临多重共线性问题。今天我们会着重讲一下自变量的筛选的原则与方法。√因变量的要求在数据正态性方面线性回归要求因变量严格来说是残差呈正态或近似正态分布。严重偏态数据不能直接使用线性回归需要通过将偏态分布转换为分类变量后做Logistic回归或取对数转换为正态或近似正态分布或使用中位数回归。Logistic回归和Cox回归则对数据正态性无要求。想要使用回归方法进行分析还需要满足一些其他的基本前提第一线性关系的前提。因变量与自变量之间应当存在线性关系或者经过数据转换后存在线性关系。如果这一点不满足模型很容易失败。关于线性与非线性趋势的分析后续会有专门讲解。第二独立性的前提。观察值需要具有一定程度的独立性具体来说要求残差是独立的、没有聚集性。如果残差不独立可以考虑使用混合效应模型来处理。此外不同的回归模型还有各自额外的条件。例如线性回归要求方差齐性Cox模型要求等比例风险假设等级Logistic回归有平行性条件Poisson回归需要注意数据的过度离散问题。这些内容本课程暂时不展开。√残差分析残差e y - y预测值。残差是x未解释的部分y的变异部分来源于x部分来源于未知因素残差。而残差无法被完全消除。线性回归要求残差满足正态性、独立性、方差齐性、线性四个条件。方差齐性指无论预测值取何值数据离散程度相当。正态性可通过残差的正态分布图或直方图判断观察残差是否近似正态分布。残差图在线性回归中具有重要作用。如图所示残差图以标准化残差为y轴、预测值为x轴绘制散点图。当条件正态性、独立性、方差齐性、线性满足时散点随机分布在0值上下无聚集性问题无异方差问题异方差指随预测值改变数据离散程度发生变化。√自变量的要求回归分析的自变量可以是任何类型二分类无特殊要求、无序多分类需设置哑变量、定量自变量和等级自变量需通过散点图考察与因变量的线性关系有线性关系则直接分析无线性关系则需设置哑变量。√哑变量的设置定量或等级暴露的回归系数的解读方式x每增加一个单位y改变的量。例如慢性病种类β-0.026表示其他自变量不变时慢性病种类每增加一个等级生命质量得分平均下降0.026分1→2、2→3、3→4均改变0.026分。无序多分类的取值如1、2、3不存在程度上的递增关系不能按定量变量处理。此时需设置对照组例如以1为对照将2与1比较、3与1比较产生两个哑变量是否为2、是否为3。哑变量是数据分析过程中临时产生的变量。将分类变量正确设置为分类变量即相当于设置了哑变量。√多重共线性问题多重共线性指回归模型中两个或多个自变量特征之间高度相关。低度相关客观存在但高度相关会导致严重后果回归系数标准误增加导致不显著导致 t 统计量不显著系数估计值对数据微小变化极其敏感回归系数异常意义解释困难如预期为正却为负或系数极大、置信区间极宽。若回归结果异常变量均无意义或系数非常反常应考虑是否存在多重共线性。可通过相关分析初步判断常用诊断指标为方差膨胀因子VIF。VIF5需警惕VIF10视为严重多重共线性。线性回归、Logistic回归、Cox回归均需关注多重共线性问题。处理方法包括剔除造成共线性的变量或使用逐步回归法。√自变量筛选的原则回归分析的自变量个数有限制。自变量过多会导致建模失败、多重共线性、多因素与单因素结果相反、变量均无意义等异常现象。异常原因可能包括中介变量、混杂因素、自变量过多或样本量过少这些问题我们后续会再讲。样本量要求线性回归约为自变量个数的10倍Logistic回归和Cox回归约为20倍。例如10个自变量线性回归需100例Logistic/Cox回归需200例。√自变量筛选的基本原则统计建模应大道至简自变量个数不宜过多一般不超过10个。筛选策略称为“严进严纳”进入模型时严格控制变量少淘汰时严格筛选多淘汰。· 严进先进行单因素分析简单关联性分析如t检验、卡方检验、秩和检验、相关分析、方差分析或单因素回归挑选P值较小的变量进入多因素回归。P值阈值可设为0.05、0.1或0.2条件宽松与否取决于自变量个数。自变量少则条件宽松自变量多则条件严格。若样本量大且变量不多可全部纳入不必先单后多。此外若医学上认为某变量重要即使单因素分析P值0.05也可考虑纳入。· 严纳将P值无意义或造成共线性的变量淘汰。可采用人工法手动剔除或软件法逐步回归。逐步回归包括后退法先全部纳入再逐一剔除、前进法从少到多逐一加入、双向逐步法引入新变量后评估是否剔除旧变量。双向逐步回归是常用方法尤其适用于多重共线性。模型评价指标线性回归常用R²决定系数越大越好Logistic回归和Cox回归常用AIC赤池信息准则越小越好。√自变量筛选方法小结下面小结一下因素筛选的常见方法。第一种全变量纳入法。当自变量数量不多且样本量足够大时可以多因素一次性纳入所有变量不做任何淘汰。第二种可以概括为“严进严纳”。所谓“严进”是指单因素分析时只有P值较小的自变量才被考虑纳入多因素模型。一般推荐这种做法。所谓“严纳”是指进入多因素模型后再采用逐步回归法进一步筛选。第三种也是很多情况下推荐的做法只“严进”也就是单因素筛选后直接纳入多因素模型不再开展逐步回归。总结一下规律样本量越小、变量越多使用的淘汰工具就应该越多。此外建模还需要讲究策略。要关注因变量的要求比如正态性关注自变量的要求比如线性关系不满足时需设哑变量控制自变量个数警惕多重共线性并进行适当的筛选。本章总结医学统计学方法和过程的三个步骤——统计描述、差异性分析和回归——是主流且基本的一般数据分析都会用到。希望大家对这三个步骤有初步的认识。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665