摘要
构建并验证系统性红斑狼疮(SLE)患者随访期间达到低疾病活动状态(LLDAS)的临床预测模型,并比较传统Logistic回归与机器学习模型的预测效能。
纳入全国11家三级医院真实世界SLE队列中完成基线评估及T1结局判定的患者1395例,以入组后9±6个月是否达到LLDAS为结局。收集基线人口学、病程、临床受累、实验室及治疗信息。采用多重插补处理缺失数据,基于AIC的双向逐步Logistic回归筛选变量并建立主模型,绘制列线图。采用Bootstrap进行内部验证,并在独立第2中心进行外部验证,评价模型区分度、校准度和临床净获益。进一步构建AdaBoost、GBM、随机森林和CatBoost模型进行比较,并结合SHAP分析变量重要性。
最终纳入主模型的变量为SLE病程、基线SLEDAI评分、基线泼尼松剂量>7.5 mg/d、基线合并感染和性别。多因素分析显示,病程延长、基线SLEDAI评分升高及基线泼尼松剂量>7.5 mg/d均与LLDAS达成概率降低相关,OR(95%CI)分别为0.977(0.959~0.995)、0.973(0.953~0.993)和0.241(0.175~0.333)。主模型训练集AUC为0.677(95%CI:0.643~0.710),MAE为0.006;外部测试集AUC为0.807,MAE为0.021。决策曲线显示模型在较宽阈值范围内具有临床净获益。机器学习比较显示,传统Logistic模型AUC最高(0.807),略优于CatBoost(0.801)、GBM(0.800)、随机森林(0.796)和AdaBoost(0.794);PR-AUC亦以传统Logistic模型最高(0.681)。SHAP分析提示,基线泼尼松剂量>7.5 mg/d、基线SLEDAI评分、基线HCQ使用、基线感染及病程为重要预测特征。
本研究基于多中心真实世界队列构建了SLE患者LLDAS预测模型,并在外部验证中显示出较好的区分度、校准度和潜在临床应用价值。较长病程、较高基线疾病活动度及较高基线糖皮质激素剂量是LLDAS达成的不利预测因素。在本研究场景下,机器学习模型未显示出较传统Logistic回归更优的预测增益。
