大规模的分子数据生成
过去几十年里,我们大规模分析分子的能力发生了重大变化。以基因测序为例,最初,基于Sanger技术的基因测序主要针对长度不超过几百个碱基的DNA或RNA片段。到了本世纪初,合成测序等方法逐渐受到重视,可以同时合成和读取数百乃至数十亿的短DNA模板。人类基因组计划花费10年时间对一个不完整的单倍体基因组进行测序,耗资数十亿美元,而到2022年,只需几百美元就能在5小时内对一个更完整的人类基因组进行测序。基因组测序产生的数据量巨大。在测序过程产生的计算机文本文件中,每一行都代表一个单独”读取”的DNA或RNA分子。基因组的一个子集的文本文件大小可以达到100到200千兆字节。
图1.用于分子分析的数据处理
从组织样本收集到准确的临床诊断,需要使用新的测量技术来生成和分析数据,需要复杂的实验室和计算管道。初始工作流程步骤通常包括样品采集和文库制备。DNA和RNA测序通常通过合成测序(Illumina),纳米孔测序(Oxford Nanopore)或单分子实时测序(SMRT,Pacific Biosciences)完成。每种方法都以原始数据的形式产生输出
在分子数据规模化生成的同时,分析工具也在同步改进,以适应这些分子”大数据”的数量、速度和种类。事实证明,机器学习的出现尤其具有价值。
以下是机器学习在生物医学中的应用。
图2.机器学习在生物医学中的应用
机器学习在基因组学中的应用
机器学习在基因组学中的应用,取得的最重要进展在于变异识别 (variant calling)–确定分析物序列(例如来自患者的样本)与参考序列的不同之处。当单个读数被映射到参考基因组中的相应位置时,它们可以被可视化为一个”堆积(pile up)”,其中与参考序列不同的碱基被突出显示 (图1)。这种可视化的表现形式有助于在基因组的复杂区域进行快速人工审查,这种洞察力促成了利用计算机视觉和图像识别技术的进步来进行变异识别的深度学习方法的发展。
图3.机器学习在组学数据中的应用
变异识别可以被视为图像分类问题。在示例中,序列数据、质量分数和其他读取特征被编码为多通道特征表示。然后将该特征表示输入卷积神经网络,以计算三种基因型状态的基因型可能性:纯合参考、杂合或纯合交替深度神经网络是适用于大型数据集的复杂非线性函数。多层交替的”神经元”权重和非线性将数据转化为抽象的低维表示,有助于分类。有了神经网络的强大功能和读取更长DNA分子的能力,单体分型(将DNA链映射到亲本染色体)的新时代就可能到来。单体分型方法能更好地代表起源的DNA分子,从而提高变异识别的质量,并能为临床管理提供信息–例如,在复合杂合子的情况下,对同一基因座上两个变异的起源亲本的鉴定可能会影响病人的治疗。美国国家标准与技术研究院通过其”Genome in a Bottle Consortium”联盟、美国FDA通过其” precisionFDA initiative”计划推动了上述进展带来的变异识别的改进。这些组织利用标准化样本共同举办了公开的”Truth Challenge”竞赛。结果表明,全基因组的变异识别准确率不断提高,特别是在基因组中具有挑战性的区域,如6号染色体上编码主要组织相容性复合体的区域。机器学习在确定罕见病变异的优先次序方面也被证明非常有用。此外,应用所有这些方法在确定罕见遗传疾病方面尤为成功。
转录组学的机器学习
对转录组(生物体内所有RNA转录本的总和)的读取正被用作识别罕见病病因基因的另一种工具。最初的研究表明,通过将每个基因的表达谱与参考范围进行比较来识别表达异常值,可以找出未被发现的病因基因。在一大批未确诊的罕见病患者中,血液转录组测序发现了8%的患者存在因果变异。研究人员开发了一个包含基因表达、等位基因特异性表达和替代剪接数据的分层贝叶斯模型,可以用于识别基因驱动的转录组异常。
尽管取得了这些进展,但预测剪接接头仍然是一个具有挑战性的问题。已有研究开发了一个32层深度神经网络的深度学习模型,显示出了改善罕见疾病诊断的前景。此外,使用自动编码器已被证明可改善RNA测序数据的异常剪接预测(图2)。
表观基因组学应用
表观基因组学被定义为影响基因表达的一整套修饰。虽然人们知道表观遗传机制在某些罕见和常见疾病中起作用,但对DNA化学修饰的大规模表征才刚刚开始对临床医学产生影响。
有研究显示,使用一系列神经网络(包括卷积神经网络、双向递归神经网络和两种类型的组合)的方法在甲基化检测方面的C statistic超过了0.95,优于之前的基准模型。
蛋白质组学的机器学习
机器学习对蛋白质组学的影响是多方面的,在谱图预测、保留时间预测、蛋白质结构和功能预测、蛋白质磷酸化量化分析、生物标志物预测等方面都有不同程度的应用。有研究采用深度学习方法,对已知化学分子的光谱图 (Spectral Plots) 进行训练,改进了对候选肽段谱图的预测–这是基于串联质谱的蛋白质组学的关键步骤。肽的保留时间是肽从液相色谱柱洗脱出来的时间点,使用基于卷积神经网络的工具能够准确预测肽的保留时间。蛋白质结构预测工具AlphaFold的成功备受瞩目。大型语言模型最近也应用于蛋白质功能预测,目的是加速药物发现。蛋白质在磷酸化等过程中的翻译后修饰对蛋白质的功能、调控和降解至关重要,但量化仍是一个尚未解决的难题。目前,从蛋白质序列对翻译后修饰位点进行深度学习预测取得了成功,通过结合机器学习方法(即隐马尔可夫模型和卷积神经网络组合),从肽序列预测蛋白质功能的工作也得到了改进。
近年来,预测生物标志物一直是蛋白质组学的主要临床重点。有研究基于机器学习辅助的蛋白质组学方法,发现了酒精性肝病、阿尔茨海默病和帕金森病的循环生物标记物。
代谢组学的应用
蛋白质组学侧重于蛋白质组分分析,而代谢组学包括脂肪酸、脂类、有机酸、氨基酸、类固醇和碳水化合物的测量。代谢组学的主要临床应用之一是诊断先天性代谢错误。传统上,嘌呤和氨基酸等特定类别代谢物的定量分析是通过单独的检测方法进行的,其主要局限性在于对可能受影响途径的先验假设。与此相反,基于质谱的代谢组学可以与基因组测序相结合,作为一种非靶向策略,以解决具有先天性代谢错误典型症状但标准筛查结果为阴性的患者诊断率低的问题。机器学习在代谢组学中已有一些应用案例。例如,代谢指纹方法利用支持向量机确定了丙酮酸激酶缺乏症的诊断。在另一个例子中,金属蛋白基因中的变异为多通道卷积神经网络提供了训练数据,该网络显示,金属蛋白铁结合位点的突变与代谢性疾病的关系比其他位置的突变更为密切。
多组学应用
随着来自多种类型技术的高维数据越来越容易获得,结合数据的计算方法也变得越来越重要。
最早的多组学研究(即整合基因组或蛋白质组等多种”组学”数据类型的方法)实例之一是对一个人进行的纵向分析,该分析结合了基因组、转录组、蛋白质组、代谢组和自身抗体谱。
这些方法要么在早期融合数据,将组学数据合并,然后进行单一分析,要么在后期融合数据,创建一个联合模型,将多个单一组学分析的输出结果结合起来。
一些多组学方法已在临床领域取得了成功,例如,有研究利用以前发表的机器学习模型,将亮氨酸拉链转录因子样 1(LZTFL1)鉴定为Covid-19风险位点的候选效应基因。此外,有研究通过使用支持向量机分析癌症的基因组、转录组和免疫组反应数据,发现了免疫疗法反应的新型生物标记物。
结论
技术进步极大地增强了我们大规模测量基本生物过程的能力。由此产生的大量数据与机器学习方法相得益彰,这些方法越来越适合分析多维生物数据集。这些方法正在临床医学中得到应用,其中进展最大的是罕见遗传病的诊断和治疗。
挑战依然存在,主要包括数据质量、数据一致性和临床医生的认识。
随着基准指标的扩展、技术流程的标准化、以及数据处理速度的提升和准确性的提高,人工智能有潜力对精准医疗产生深远影响。
参考资料Yu L. Artificial Intelligence in Molecular Medicine. N Engl J Med. 2023 Sep 28;389(13):1251-1252.doi: 10.1056/NEJMc2308776.
——— End ———