您所在的位置:
多数据库验证的机器学习模型在肺炎住院死亡率预测中的应用研究
作者: 沈露萍
单位: 复旦大学附属中山医院

摘要

肺炎是ICU患者主要发病和死亡原因,尽管治疗进步,但重症肺炎死亡率仍高(17.1%-38.3%)。传统评分如SOFA、APACHE-II、CURB-65预测局限明显。本研究开发并验证机器学习模型预测肺炎院内死亡率,通过多数据库验证提升泛化性和临床适用性。

本回顾性多中心研究利用四个大型数据库开发和验证模型。MIMIC-IV(9,410例患者)为训练集,MIMIC-III(2,487例)、eICU(13,541例)和复旦大学附属中山医院前瞻性队列(345例)为外部验证集,总计25,783例患者。采用Boruta算法从21个变量中筛选特征,实施随机森林、XGBoost、逻辑回归、LASSO和支持向量机五种算法。使用SHAP分析评估可解释性,通过AUC、敏感性、特异性等指标评价性能。


队列死亡率差异为17.1%-38.3%。Boruta识别9个关键特征:年龄、舒张压、心率、体温、呼吸频率、肌酐、血尿素氮、血小板计数和白细胞计数。XGBoost模型最佳,训练集AUC 0.747(95% CI: 0.733-0.761),外部验证AUC为MIMIC-IV测试集0.672(0.649-0.695)、MIMIC-III 0.670(0.647-0.693)、eICU 0.695(0.683-0.706)、复旦数据集0.653(0.594-0.711)。SHAP显示血小板计数最重要(平均重要性0.033475),其次血尿素氮(0.032406)和年龄(0.027566)。决策曲线分析证实模型临床实用性,在0.05-0.35阈值内净效益优于全部/无治疗策略。


研究首次实现肺炎死亡率预测模型的多数据库验证,性能优于传统评分。XGBoost结合SHAP提供决策工具,在四个数据库(含我国队列)一致验证。支持个性化风险评估,助高危患者早期干预、优化资源,改善肺炎管理。

关键词: 肺炎;死亡率预测;机器学习;多数据库验证;SHAP分析
来源:2025年上海市医学会临床药学专科分会学术年会