一、背景介绍
肌萎缩侧索硬化症俗称“渐冻症”,是一种进行性神经退行性疾病,主要影响大脑和脊髓中的运动神经元,导致肌肉无力、萎缩,最终因呼吸衰竭而危及生命。该疾病发病率呈现上升势头,且多位知名人士罹患该病,比如知名物理学家霍金、京东集团原副总裁蔡磊,这些公众人物让患者群体走向关注。数据分析显示,到2040年全球ALS患者人数将接近40万,中国现有患者亦超过6万,因此对该疾病深入研究和早期干预具有一定紧迫性。肌萎缩侧索硬化症病因尚未完全阐明,或涉及蛋白异常聚集、线粒体功能障碍等,目前临床上诊断长期依赖症状和肌电图,平均延误6–18个月,致使患者错过潜在干预窗口,故迫切需要能提前数年发现疾病的血液标志物及相关预测模型
二、材料方法
研究采用了多阶段的病例-对照设计,包含了来自意大利和美国的多个临床队列,共纳入183例ALS患者和309例对照(包括健康对照及其他神经系统疾病患者)作为发现队列,并设立了独立复制队列(48例ALS vs. 75例对照)及两个外部验证集(含UK Biobank超2.3万名对照),样本涵盖血浆和脑脊液。血浆蛋白检测采用Olink Explore 3072平台,辅以 ELISA/SomaScan 交叉验证;同时采集同批次 DNA 测序,排除遗传混杂;脑脊液数据来自SomaScan 7K平台。
通过广义线性模型进行差异蛋白分析,协变量包括年龄、性别、采血管及遗传数据前两维UMAP以校正群体分层;利用caret包构建监督式机器学习模型,比较10种算法后选定随机森林模型,以33个差异蛋白及临床变量(共36个特征)为输入,在训练集上建模并在测试集评估,最终筛选出20个最优特征,模型在测试集和外部验证集中AUC高达98.3%。进一步通过ELISA验证关键蛋白,利用UK Biobank无症状人群数据证明该风险评分可在症状出现前5–10年预测ALS发病。此外结合pQTL和ALS GWAS数据开展孟德尔随机化分析,评估蛋白与疾病间的潜在因果关系。
三、结果讨论
研究基于发现队列应用Olink平台检测,发现33种蛋白表现出显著差异表达,其中神经丝轻链(NEFL)上调最显著,同时肌肉相关蛋白如CSRP3、MYOM3和CA3也明显升高。在独立复制队列中14种蛋白得到一致趋势验证,z-score相关性高(R = 0.83),显示高度可重复性;脑脊液验证显示6种蛋白(如NEFL、GZMH等)在CSF中亦显著变化。通路分析揭示差异蛋白富集于肌原纤维组织、骨骼肌 Z 盘、心肌肥厚及代谢通路,提示ALS涉及肌肉-神经交互系统的早期紊乱。
基于33个差异蛋白及年龄、性别等特征,采用随机森林算法构建机器学习模型,经筛选后保留20个最优变量,在测试集中AUC达0.983,平衡准确率为89.3%;在外部验证集1和验证集2中AUC分别为0.96和0.95,验证了模型的泛化能力。风险评分显示这些特征具备预测前驱期发病的潜力,可实现提前数年预警。
四、研究结论
研究通过大规模血浆蛋白质组学分析结合机器学习,成功识别了一组与肌萎缩侧索硬化症显著相关的血浆蛋白标志物,并构建了高精度的诊断与预测模型,这些模型在多个独立队列中表现出卓越的诊断性能,实现了准确预测无症状个体未来的发病时间,展现出作为前驱期生物标志物的巨大潜力。研究中Olink平台的高灵敏度和多重检测能力使得在复杂血浆环境中精准定量数百种蛋白成为可能,结合机器学习有效整合多变量信息,显著提升了模型的预测能力和生物学可解释性。
五、结果展开
图1. 显示研究课题工作流程。研究基于发现队列和复制队列,对ALS患者、健康对照以及其他神经系统疾病患者的血浆样本进行蛋白质组学检测,对数据进行差异丰度分析。在此基础上,采用监督式机器学习方法,结合血浆蛋白水平和临床参数,识别ALS的分子特征。
(A) 其他神经系统疾病包括:皮质基底节综合征(8 例)、路易体痴呆(8 例)、多系统萎缩(5 例)、帕金森病(153 例)、核上麻痹(19 例)及未指明类型痴呆(1 例)。
(B) 在机器学习过程中,发现队列和复制队列的样本依次作为训练集和测试集。
(C) 外部验证集1包括了46 例因缺失基因型数据而最初未纳入分析的样本;外部验证集2为来自 UK Biobank 的独立蛋白质组数据。
(D) 本研究开发了在线分析工具,供临床研究者使用自有蛋白数据进行 ALS 风险评估。
图2. 显示ALS患者与对照个体间血浆蛋白的差异丰度分析。
(A) 火山图显示发现队列中蛋白质的差异丰度情况(183例ALS vs. 172例对照 + 137例其他神经系统疾病),垂直虚线:±1.4 倍变化阈值;水平虚线:P = 0.05;蓝色/红色点分别代表经广义线性模型(FDR = 5 %)校正后显著下调或上调的蛋白。
(B) 火山图显示了复制队列中蛋白质的差异丰度情况(48例ALS vs 42例对照 + 33 例其他神经系统疾病),黑圈标记的是在发现队列中已显著差异的蛋白。
(C) 一致性散点图显示发现队列中与ALS显著相关的33种蛋白在发现阶段和复制阶段的z-score值,灰色为 95 % 置信区间,蓝色为线性回归,Pearson 相关系数 R 及双侧检验 P 值用于评估发现与复制结果的一致性。
(D) 显示血浆中与ALS显著相关的蛋白及其在脑脊液(CSF)中的丰度比较,CSF 数据来自 SomaScan(14 例 ALS vs 89 例健康对照),在血浆中显著差异的蛋白中,6 个在 CSF 亦显著(彩色),21 个不显著(灰色),另有 6 个未被检测到; y 轴:相对于对照组的倍数变化。
图3. 显示基于差异表达血浆蛋白的ALS通路分析。
(A) 为使用clusterProfiler 软件对 33 种差异表达血浆蛋白进行富集分析结果,x 轴为该类别在 ALS 样本中相对于对照的富集倍数,使用了单侧 t 检验并通过FDR校正,原点大小表示显著程度,蓝色为生物过程 (BP),橙色为分子功能 (MF),绿色为细胞组分 (CC),紫红为Reactome 通路,淡蓝为KEGG 通路。
(B) 显示基于差异丰度血浆蛋白的富集分析所识别出的ALS中三大主要生物过程(BP),并列出了各类别中涉及的蛋白质。
图4. 显示基于血浆蛋白的监督式机器学习用于诊断肌萎缩侧索硬化症(ALS)。
(A) 显示构成随机森林模型的20个特征重要性排序,包括了17种蛋白质、性别、年龄以及采集管,特征按影响力从高到低排列,顶部为最具影响力的特征(NEFL),底部为影响最小的特征(性别)。
(B) 显示模型性能的 ROC 曲线,绿色标识测试集(48 ALS vs 42 健康对照 + 32 其他神经系统疾病;1 例其他神经病因数据缺失被剔除),红色标识外部验证集 1(14 ALS vs 15 健康对照 + 17 其他神经系统疾病),黄色标识外部验证集 2(13 ALS vs 23,601 健康对照),黑色曲线为这三个队列的平均AUC(曲线下面积)。
(C) 显示单样本 ALS 的风险评分, 利用随机森林模型,使用 20 个特征计算每例样本的 ALS 风险评分,右侧白色区域表示与ALS诊断一致的风险评分范围,左侧灰色区域表示与健康对照或其他神经系统疾病相符的评分区间,黑色圆圈表示该样本被模型错误分类。
图5. 显示基于监督式机器学习构建的ALS风险评分回归分析可预测无症状个体的ALS发病年龄。
(A) 散点图展示ALS 风险评分与症状前时间关系,紫色代表来自UK Biobank的109名及本研究中的1名个体,在采集血浆时尚未发病但后续发展为ALS;橙色代表来自训练集、测试集以及外部验证集1和2的ALS患者血浆样本,这些样本均在症状出现后5年内采集;黑色为回归线,灰色区域表示均值预测的95%置信区间;垂直虚线用以区分症状出现前后两种状态。
(B) 显示17 种血浆蛋白与症状出现时间的线性回归分析,数据以线性回归估计的系数值 ± 标准误表示,条形图颜色表示蛋白所属的Olink检测面板类别:黄色为心脏代谢;红色为炎症;绿色为神经学;蓝色为肿瘤学。
参考文献:
Chia, R., Moaddel, R., Kwan, J.Y. et al. A plasma proteomics-based candidate biomarker panel predictive of amyotrophic lateral sclerosis. Nat Med (2025)。//doi.org/10.1038/s41591-025-03890-6
华测多组学科研服务AI+靶向代谢组学智能临床转化平台亮相第二届多组学科研大会
2024年3月30日至31日,第二届多组学科研与临床应用大会在上海丽昂豪生大酒店盛大开幕,大会以“聚焦多组学,从科研到临床”为主题,吸引了国内外众多专家学者相关的基础研究、临床应用、产业从业者参与,全场座无虚席。
2024-04-02 00:59:15
CTI华测检测获批承担国际标准工作组ISO/TC 34/SC 6 WG28,促进中外国际标准互认
近日,经ISO/TC 34/SC 6(国际标准化组织食品技术委员会肉禽鱼蛋及其制品分技术委员会)投票表决,正式批准成立国际标准工作组ISO/TC 34/SC 6 WG28“Determination of pesticide and veterinary drug residues”(农药及兽药残留的测定),工作组由华测检测认证集团股份有限公司(简称CTI华测检测)承担,由CTI华测检测张秀芹博士担任工作组召集人。与此同时,由WG28归口管理的3项国际标准新项目提案也获批立项,将同步开展工作。此次工作组的组建,不仅是对CTI华测检测专业能力的国际认可,也是我国积极参与国际标准化活动的重要一环。
2024-01-08 09:05:09
CTI华测艾普满分通过2023年“全国血液微生物cfDNA宏基因组高通量测序室间质量评价预研活动”
11月15日,国家卫生健康委临床检验中心公布了2023年全国血液微生物cfDNA宏基因组高通量测序室间质量评价预研活动结果报告,经过严格的考核与评估,华测艾普医学检验所(以下简称“华测艾普“)满分通过了此次考评,以优秀的成绩展现了其精准化医疗服务的实力,代表着华测艾普的检测能力获得国家权威机构的充分认可,是华测艾普医学技术实力和高质量水平的充分体现,也印证了华测艾普在病原微生物宏基因组检测领域的重要地位。
2023-11-20 22:34:55