摘要
病毒性肝炎患者中糖尿病的患病风险显著增高,但目前缺乏有效的个体化风险预测工具。本研究旨在整合多维度临床指标,开发一种可解释的机器学习模型,用于预测病毒性肝炎患者并发糖尿病的风险,并采用SHapley Additive exPlanation(SHAP)方法解析关键影响因素,为临床早期识别与干预提供科学依据。
回顾性收集2020年1月至2025年1月广东省某特殊场所的病毒性肝炎患者临床资料,同时采用美国国家健康与营养调查(NHANES)2021—2023年数据作为外部验证集。纳入年龄≥18岁、基线无糖尿病史、有明确乙型或丙型肝炎血清学检测结果的患者。收集人口学特征、肝功能指标(ALT、AST、GGT)、代谢指标(FPG、TG、HDL)、炎症指标(如SII)、肝纤维化评分(FIB-4、APRI)等变量。经数据清洗后按7∶3比例随机分为训练集与测试集。采用单因素分析和LASSO回归筛选预测因子,分别构建Logistic回归、随机森林、XGBoost、CatBoost、LightGBM等7种机器学习模型。通过受试者工作特征曲线下面积(AUC)、灵敏度、特异度、校准曲线及决策曲线分析评估模型性能,并利用SHAP方法对最优模型进行全局和局部解释。
共纳入符合标准的病毒性肝炎患者2082例,其中糖尿病患病率为27.8%。LASSO回归筛选出年龄、甘油三酯、ALT、血小板计数、FIB-4。在测试集中,随机森林模型表现最佳。SHAP分析显示,对模型贡献最大的前三位因素依次为血小板计数、FIB-4和年龄,其中FIB-4和血小板计数和对病毒性肝炎患者并发糖尿病风险具有最强的正向预测作用。
本研究构建的随机森林模型在预测病毒性肝炎患者并发糖尿病风险方面表现出良好的区分度和校准度,且通过SHAP方法实现了模型可解释性。该模型有助于临床医生早期识别高危患者,制定个体化的代谢监测和干预策略,为病毒性肝炎与糖尿病的协同管理提供了量化工具。
