文献解读 | 蛋白组学有望实现“渐冻症”早期预测

2025-08-22 08:36:16 63

一、背景介绍

肌萎缩侧索硬化症俗称“渐冻症”,是一种进行性神经退行性疾病,主要影响大脑和脊髓中的运动神经元,导致肌肉无力、萎缩,最终因呼吸衰竭而危及生命。该疾病发病率呈现上升势头,且多位知名人士罹患该病,比如知名物理学家霍金、京东集团原副总裁蔡磊,这些公众人物让患者群体走向关注。数据分析显示,到2040年全球ALS患者人数将接近40万,中国现有患者亦超过6万,因此对该疾病深入研究和早期干预具有一定紧迫性。肌萎缩侧索硬化症病因尚未完全阐明,或涉及蛋白异常聚集、线粒体功能障碍等,目前临床上诊断长期依赖症状和肌电图,平均延误6–18个月,致使患者错过潜在干预窗口,故迫切需要能提前数年发现疾病的血液标志物及相关预测模型

 

二、材料方法

研究采用了多阶段的病例-对照设计,包含了来自意大利和美国的多个临床队列,共纳入183例ALS患者和309例对照(包括健康对照及其他神经系统疾病患者)作为发现队列,并设立了独立复制队列(48例ALS vs. 75例对照)及两个外部验证集(含UK Biobank超2.3万名对照),样本涵盖血浆和脑脊液。血浆蛋白检测采用Olink Explore 3072平台,辅以 ELISA/SomaScan 交叉验证;同时采集同批次 DNA 测序,排除遗传混杂;脑脊液数据来自SomaScan 7K平台。

通过广义线性模型进行差异蛋白分析,协变量包括年龄、性别、采血管及遗传数据前两维UMAP以校正群体分层;利用caret包构建监督式机器学习模型,比较10种算法后选定随机森林模型,以33个差异蛋白及临床变量(共36个特征)为输入,在训练集上建模并在测试集评估,最终筛选出20个最优特征,模型在测试集和外部验证集中AUC高达98.3%。进一步通过ELISA验证关键蛋白,利用UK Biobank无症状人群数据证明该风险评分可在症状出现前5–10年预测ALS发病。此外结合pQTL和ALS GWAS数据开展孟德尔随机化分析,评估蛋白与疾病间的潜在因果关系。

 

三、结果讨论

研究基于发现队列应用Olink平台检测,发现33种蛋白表现出显著差异表达,其中神经丝轻链(NEFL)上调最显著,同时肌肉相关蛋白如CSRP3、MYOM3和CA3也明显升高。在独立复制队列中14种蛋白得到一致趋势验证,z-score相关性高(R = 0.83),显示高度可重复性;脑脊液验证显示6种蛋白(如NEFL、GZMH等)在CSF中亦显著变化。通路分析揭示差异蛋白富集于肌原纤维组织、骨骼肌 Z 盘、心肌肥厚及代谢通路,提示ALS涉及肌肉-神经交互系统的早期紊乱。

基于33个差异蛋白及年龄、性别等特征,采用随机森林算法构建机器学习模型,经筛选后保留20个最优变量,在测试集中AUC达0.983,平衡准确率为89.3%;在外部验证集1和验证集2中AUC分别为0.96和0.95,验证了模型的泛化能力。风险评分显示这些特征具备预测前驱期发病的潜力,可实现提前数年预警。

 

四、研究结论

研究通过大规模血浆蛋白质组学分析结合机器学习,成功识别了一组与肌萎缩侧索硬化症显著相关的血浆蛋白标志物,并构建了高精度的诊断与预测模型,这些模型在多个独立队列中表现出卓越的诊断性能,实现了准确预测无症状个体未来的发病时间,展现出作为前驱期生物标志物的巨大潜力。研究中Olink平台的高灵敏度和多重检测能力使得在复杂血浆环境中精准定量数百种蛋白成为可能,结合机器学习有效整合多变量信息,显著提升了模型的预测能力和生物学可解释性。

 

五、结果展开

 

图1. 显示研究课题工作流程。研究基于发现队列和复制队列,对ALS患者、健康对照以及其他神经系统疾病患者的血浆样本进行蛋白质组学检测,对数据进行差异丰度分析。在此基础上,采用监督式机器学习方法,结合血浆蛋白水平和临床参数,识别ALS的分子特征。

(A) 其他神经系统疾病包括:皮质基底节综合征(8 例)、路易体痴呆(8 例)、多系统萎缩(5 例)、帕金森病(153 例)、核上麻痹(19 例)及未指明类型痴呆(1 例)。 

(B) 在机器学习过程中,发现队列和复制队列的样本依次作为训练集和测试集。 

(C) 外部验证集1包括了46 例因缺失基因型数据而最初未纳入分析的样本;外部验证集2为来自 UK Biobank 的独立蛋白质组数据。 

(D) 本研究开发了在线分析工具,供临床研究者使用自有蛋白数据进行 ALS 风险评估。 

 

 

图2. 显示ALS患者与对照个体间血浆蛋白的差异丰度分析。

(A) 火山图显示发现队列中蛋白质的差异丰度情况(183例ALS vs. 172例对照 + 137例其他神经系统疾病),垂直虚线:±1.4 倍变化阈值;水平虚线:P = 0.05;蓝色/红色点分别代表经广义线性模型(FDR = 5 %)校正后显著下调或上调的蛋白。

(B) 火山图显示了复制队列中蛋白质的差异丰度情况(48例ALS vs 42例对照 + 33 例其他神经系统疾病),黑圈标记的是在发现队列中已显著差异的蛋白。

(C) 一致性散点图显示发现队列中与ALS显著相关的33种蛋白在发现阶段和复制阶段的z-score值,灰色为 95 % 置信区间,蓝色为线性回归,Pearson 相关系数 R 及双侧检验 P 值用于评估发现与复制结果的一致性。

(D) 显示血浆中与ALS显著相关的蛋白及其在脑脊液(CSF)中的丰度比较,CSF 数据来自 SomaScan(14 例 ALS vs 89 例健康对照),在血浆中显著差异的蛋白中,6 个在 CSF 亦显著(彩色),21 个不显著(灰色),另有 6 个未被检测到; y 轴:相对于对照组的倍数变化。

 

 

图3. 显示基于差异表达血浆蛋白的ALS通路分析。

(A) 为使用clusterProfiler 软件对 33 种差异表达血浆蛋白进行富集分析结果,x 轴为该类别在 ALS 样本中相对于对照的富集倍数,使用了单侧 t 检验并通过FDR校正,原点大小表示显著程度,蓝色为生物过程 (BP),橙色为分子功能 (MF),绿色为细胞组分 (CC),紫红为Reactome 通路,淡蓝为KEGG 通路。

(B) 显示基于差异丰度血浆蛋白的富集分析所识别出的ALS中三大主要生物过程(BP),并列出了各类别中涉及的蛋白质。

 

 

图4. 显示基于血浆蛋白的监督式机器学习用于诊断肌萎缩侧索硬化症(ALS)。

(A) 显示构成随机森林模型的20个特征重要性排序,包括了17种蛋白质、性别、年龄以及采集管,特征按影响力从高到低排列,顶部为最具影响力的特征(NEFL),底部为影响最小的特征(性别)。

(B) 显示模型性能的 ROC 曲线,绿色标识测试集(48 ALS vs 42 健康对照 + 32 其他神经系统疾病;1 例其他神经病因数据缺失被剔除),红色标识外部验证集 1(14 ALS vs 15 健康对照 + 17 其他神经系统疾病),黄色标识外部验证集 2(13 ALS vs 23,601 健康对照),黑色曲线为这三个队列的平均AUC(曲线下面积)。

(C) 显示单样本 ALS 的风险评分, 利用随机森林模型,使用 20 个特征计算每例样本的 ALS 风险评分,右侧白色区域表示与ALS诊断一致的风险评分范围,左侧灰色区域表示与健康对照或其他神经系统疾病相符的评分区间,黑色圆圈表示该样本被模型错误分类。

 

 

图5. 显示基于监督式机器学习构建的ALS风险评分回归分析可预测无症状个体的ALS发病年龄。

(A) 散点图展示ALS 风险评分与症状前时间关系,紫色代表来自UK Biobank的109名及本研究中的1名个体,在采集血浆时尚未发病但后续发展为ALS;橙色代表来自训练集、测试集以及外部验证集1和2的ALS患者血浆样本,这些样本均在症状出现后5年内采集;黑色为回归线,灰色区域表示均值预测的95%置信区间;垂直虚线用以区分症状出现前后两种状态。

(B) 显示17 种血浆蛋白与症状出现时间的线性回归分析,数据以线性回归估计的系数值 ± 标准误表示,条形图颜色表示蛋白所属的Olink检测面板类别:黄色为心脏代谢;红色为炎症;绿色为神经学;蓝色为肿瘤学。

 

参考文献:

Chia, R., Moaddel, R., Kwan, J.Y. et al. A plasma proteomics-based candidate biomarker panel predictive of amyotrophic lateral sclerosis. Nat Med (2025)。//doi.org/10.1038/s41591-025-03890-6

免费获取更多专业咨询
我已阅读并同意 《CTI华测检测隐私政策》 《会员注册协议》

*新号码将自动注册

立即咨询
相关资讯
热门服务 更多 >
  • 热线电话
  • 业务咨询
  • 快速询价
  • 在线客服
  • 报告验证