您所在的位置:
基于转录组学结合机器学习的类风湿关节炎合并间质性肺疾病的诊断研究
作者: 马梦思
单位: 新疆维吾尔自治区人民医院

摘要

基于转录组学技术和机器学习(Machine Learning,ML)探索类风湿关节炎合并间质性肺疾病(Rheumatoid Arthritis associate Interstitial Lung Disease,RA-ILD)潜在生物标志物并构建诊断模型,为临床提供更为高效的RA-ILD管理办法。

对28例RA-ILD患者及28例未合并间质性肺疾病(Interstitial Lung Disease,ILD)的类风湿关节炎(Rheumatoid Arthritis,RA)患者的外周血单个核细胞(Peripheral Blood Mononuclear Cell,PBMC)进行RNA测序,并筛选差异表达基因(Differential Expressed Genes,DEGs)。使用LASSO回归、极致梯度提升(Extreme Gradient Boosting,XGBoost)和随机森林(Random Forest,RF)算法筛选特征基因。利用支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR)、RF、K 近邻(K-Nearest Neighbors,KNN)、决策树(Decision Tree,DT)、梯度提升(Gradient Boosting,GB)及XGBoost算法,构建RA-ILD诊断模型,计算模型受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUC)。另外收集39名RA-ILD患者和39名未合并ILD的RA患者的PBMC进行定量逆转录聚合酶链反应(Quantitative Reverse Transcription Polymerase Chain Reaction,qRT-PCR),验证潜在基因诊断标志物的可靠性。

共鉴定到13491个DEGs(图 1)。LASSO回归、RF、XGBoost算法通过标准化特征重要性评分聚类,选取多模型共识排名靠前的基因作为核心标志物,降低单一算法的筛选偏倚。通过十折交叉验证评估各算法筛选特征的一致性,剔除在不同交叉验证批次中排名波动显著的基因,确保核心标志物的稳健性。采用7:3比例随机划分训练集与测试集,最终筛选出7个重要基因,为IGFL2、CXCL13、RASGEF1B、ADAMTS2、LAMB3、AL358334.3、CXCL10(图 2)。SVM、LR、RF、KNN、DT、GB及XGBoost构建 RA-ILD诊断模型,AUC分别为0.976、0.984、0.976、0.928、0.827、0.848、0.955(图 3),其中LR模型诊断效能最高。qRT-PCR分析显示在RA-ILD患者中IGFL2、CXCL13、ADAMTS2表达上调,而LAMB3表达下调(P<0.05)(图 4),与RNA测序结果一致。

本研究基于转录组学和ML确定7个RA-ILD的潜在诊断生物标志物并构建联合诊断模型,LR诊断模型AUC可达0.984。为早期诊断、未来机制和药物靶点研究提供参考。

关键词: 转录组学;机器学习;类风湿关节炎;合并间质性肺疾病;生物标志物
来源:中华医学会第二十八次风湿病学学术会议