
01文献信息本次分享的文献是由遵义医科大学附属医院护理部和胸外科近日2025年8月1日在柳叶刀子刊《eClinicalMedicine》中科院1区IF10.0上发表的研究“Development and validation of an explainable machine learning model for predicting postoperative pulmonary complications after lung cancer surgery: a machine learning study”即肺癌术后肺部并发症预测的可解释机器学习模型的开发与验证一项机器学习研究开发并验证了一种基于机器学习的可解释模型用于预测肺癌LC患者术后肺部并发症PPCs风险。通过多步骤特征筛选、12种独立ML模型和26种集成模型对比最终确定SVMDT堆叠集成模型为最优方案并利用SHAP方法实现模型可解释性。图 1研究工作流程图阶段 1风险因素池构建通过系统评价筛选46个潜在风险因素Meta分析确认12个结合临床经验初步扩充变量池。阶段 2变量优化与数据准备经两轮Delphi法15名专家达成共识确定67个候选变量纳入回顾性883例与前瞻性308例队列进行数据清洗缺失值填充、标准化与类别平衡SMOTETomek法。阶段 3模型开发与验证多步骤特征筛选单变量分析→共线性分析→ML算法排序→RFE→专家共识确定9个关键变量开发12个独立模型与26个堆叠模型经内部验证回顾性队列8:2拆分筛选DTSVM为最优模型通过前瞻性队列验证性能最终用SHAP方法解析模型。02研究背景及目标研究背景疾病负担肺癌是全球高发恶性肿瘤手术切除是早期肺癌的核心根治手段但术后肺部并发症PPCs含肺不张、肺炎等发生率达7.4%~48%可延长住院时间、增加30天再入院率及死亡率缩短患者生存期并降低生活质量。现有模型缺陷传统预测模型多依赖逻辑回归或列线图存在变量选择依赖临床经验、预测因子有限、针对特定人群如老年患者、缺乏循证依据等问题现有ML模型存在“黑箱”特性缺乏可解释性与前瞻性验证临床适用性受限。研究契机机器学习在医疗预测中展现优势SHAP方法可破解“黑箱”问题亟需构建循证驱动、可解释、经多阶段验证的PPCs预测模型。研究目标开发12个独立ML模型及多种堆叠集成模型基于准确率、敏感性、AUC等指标筛选肺癌术后PPCs的最优预测模型。通过内部验证回顾性队列拆分与前瞻性验证独立队列确保模型可靠性同时采用SHAP方法解析各预测因子对PPCs风险的贡献。03数据和方法研究数据回顾性队列883例2022.01–2023.10PPCs发生率35.4%前瞻性队列308例2023.11–2024.07PPCs发生率29.5%纳入变量经Meta分析、Delphi专家咨询与临床审核最终确定9个关键特征年龄、手术时长、Charlson合并症指数CCI、肿瘤分期、一氧化碳弥散量DLCO、术中输液量IFIV、红细胞分布宽度RDW-CV、BMI、吸烟年数共9个。图 4前瞻性队列患者筛选流程图研究方法数据清理与平衡SMOTETomek方法处理类别不平衡。特征筛选通过Meta分析确定46个候选变量→德尔菲法15名专家筛选至67个→单因素分析、共线性分析VIF10→RFE递归特征消除结合9种ML算法重要性评分→最终保留9个变量。建模12种独立ML算法26种堆叠集成模型。独立模型12 种逻辑回归、LightGBM、反向传播神经网络BPNN、随机森林RF、高斯朴素贝叶斯GNB、K 近邻KNN、决策树DT、支持向量机SVM、极端梯度提升XGBoost、偏最小二乘判别分析PLS-DA、梯度提升决策树GBDT、Boruta 算法。堆叠集成模型26 种筛选 5 个基础模型GBDT、RF、逻辑回归、DT、SVM构建不同组合的堆叠模型通过网格搜索 10 折交叉验证调参。验证内部验证8:2分割AUC、准确率、敏感度、特异度、F1等指标。前瞻性验证AUC、Hosmer–Lemeshow检验、校准曲线、DCA。可解释性采用SHAP方法进行全局和个体水平解释。04实验结果图图 212个机器学习模型的ROC曲线展示12种独立模型的ROC曲线Boruta、BPNN、DT、GBDT、GNB、KNN、LightGBM、Logit、PLS-DA、RF、SVM、XGBoost。图 3独立基础模型与堆叠集成模型的综合排名训练集排名图3A前5名均为堆叠模型DTSVM排名第一GBDTDT逻辑回归RF、DTSVM逻辑回归分列二、三位最优独立模型GBDT排名第6显著低于堆叠模型。内部验证集排名图3B排名格局与训练集一致DTSVM仍居首位前5名均为堆叠模型独立模型中仅GBDT、RF进入前10证实堆叠模型的稳定性与优越性。模型一致性DTSVM在训练集与验证集均排名第一且与其他高排名堆叠模型的差异无统计学意义DeLong检验P0.05但计算效率更高成为最优选择。图 5基于SHAP方法的模型全局解释图图5ASHAP值柱状图展示特征重要性排序、图5BSHAP值点图展示特征值与SHAP值的分布、图5CSHAP依赖图展示单个特征与PPCs风险的关系图 6基于SHAP方法的模型局部解释图05讨论创新点首次采用12种独立模型26种堆叠模型并结合SHAP解释。严格的变量筛选流程Meta分析Delphi多算法特征排名。内部与前瞻性双验证提高可靠性。局限性单中心研究样本量有限尤其是前瞻性队列。尚未在真实临床路径中应用需要多中心大样本外部验证。临床价值可用于术前风险预测与干预决策减少PPCs发生。对高危患者老年、手术长、吸烟史长、液体输入量大可加强监测与优化管理。技术亮点结合SMOTETomek解决数据不平衡问题。应用堆叠集成学习提升模型性能。引入SHAP方法实现模型可解释性增强临床可接受度。