Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计

638次阅读
没有评论

今天为大家介绍的是来自Debora Marks团队的一篇论文。近期在人工智能领域的突破性进展,加上蛋白质序列和结构数据的快速积累,已经彻底改变了计算蛋白质设计的面貌。新方法有望打破自然和实验室进化的限制,加速生成用于生物技术医学中的蛋白质。为了理解机器学习方法多样化爆炸的情况,作者提出了一个统一的框架,该框架根据模型使用的三种核心数据模态来分类:序列、结构和功能标签。

Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计

蛋白质设计的目标是通过发现具有增强或超越现有蛋白质功能的序列来创建新蛋白质,这一目标有潜力解决全球性的健康、农业和可持续性问题。然而,潜在的设计空间是巨大且稀疏的:100个氨基酸的独特序列比宇宙中的原子数量还要多,而只有一小部分序列在特定环境下(例如,生物体、温度、pH值)具有期望的功能。蛋白质与其功能之间的定量映射被称为“适应性景观”。鉴于不可能穷举所有可能的氨基酸组合,更不用说在不同环境下实验性或计算性地量化它们的属性,蛋白质设计面临的首个挑战之一是将搜索范围缩小到一个可行的空间内。为了解决这一挑战研究人员已经开发出多种策略:从基于深入理解特定蛋白质结构和功能的合理设计方法,到测试更广泛变体的实验方法(例如,定向进化、组合库),再到基于生物物理的蛋白质结构、折叠和相互作用模型——计算设计的基本方法。最近,机器学习方法作为另一种策略出现,鉴于其学习从数据中建模适应性景观的复杂分布的能力,有效地探索功能性蛋白质空间。这种能力通常随着用于训练的数据的数量和质量的提高而增加。在过去二十年中DNA测序的巨大进步,结合实验确定蛋白质结构和属性的改进,为机器学习在蛋白质设计中的成功提供了所需的基础数据。同时,算法和计算能力的进步导致了对这些不同数据输入分布建模能力的增加,产生了一系列实现多样化目标的高性能蛋白质设计模型。在实践中,结合多种设计策略可能是有效的(例如,使用机器学习模型生成初步设计,然后用生物物理方法优化),但作者在这里专注于基于机器学习的设计方法。

机器学习在功能性蛋白质设计中的目标

Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计

图 1

机器学习在功能性蛋白质设计中的目标可以大致分为三类,这取决于我们是从已知蛋白质出发,还是从零开始,以及对于已知蛋白质,是增强其现有功能还是创造新功能(图1)。

增强现有功能的重新设计:蛋白质增强的目标是从一个已经具有所需功能的蛋白质(自然的或其他)开始,并引入突变以改善其属性或在不同条件下实现生物学功能。目标可能是增强蛋白质的主要功能(例如,催化活性,特定靶标的结合亲和力),增强其其他属性(例如,热稳定性)或减少与其他分子的不希望的相互作用,如通过改变表位来降低治疗蛋白的免疫原性。一种增强内在属性如稳定性的方法是从基于序列的模型或序列-结构模型中采样高概率序列。基于序列的模型因其能够准确预测突变对多样化进化表型(结合、稳定性、酶功能等)的影响而脱颖而出,这得益于许多蛋白质家族可用的序列数据深度。序列-结构模型,如逆向折叠模型,可以生成高度稳定的蛋白质序列。然而,它们到目前为止依赖于蛋白质家族序列概况和模拟残基相互作用场来考虑诸如酶活性等功能的约束。

为新功能重新设计:这里的目标是通过从具有相关功能的现有蛋白质出发来设计具有新功能的蛋白质(例如,将结合剂或酶转变为作用于新靶标)。这需要对功能机制有详细的理解或大量与新功能相关的序列数据。因此,大多数方法依赖于序列-标签模型。这些数据可以通过选择根据感兴趣的反应通过自然蛋白质的测量表型、深度突变扫描或定向进化实验获得的序列来获得。基于序列的模型也可以用来生成“新家族成员”的库,以寻找次要属性(例如,在大肠杆菌中的酶功能,向组织的病毒基因递送或抗体对靶标的结合亲和力)。这种搜寻可能比筛选一个小的标签驱动库成本更高,但与随机库相比,通过丰富具有良好内在属性和高多样性的序列,可以减少成本(例如,必要的迭代和选择规模)。序列-结构模型也可以用于这一目标,例如,重新设计蛋白质的一个区域以实现新的结合相互作用或插入活性位点。

从零开始的设计:基于机器学习的从零开始的蛋白质设计聚焦于序列-结构模型。这些方法可以生成具有多样化3D折叠和多聚体排列的序列,具有高成功率的稳定表达。基于3D结构设计序列的动机源于结构在我们理解蛋白质功能中的关键作用。蛋白质的3D结构使我们能够对物理化学相互作用进行断言,并且是推断或指定功能约束的便捷表示。从零开始的设计需要对序列和结构的功能约束,这些约束通常来自其他现有蛋白质。

重新设计与从零开始设计:蛋白质设计中重新设计(基于现有蛋白质创建新序列)与从零开始设计(基于新折叠创建新序列)之间的区分较为微妙。它更准确地被表示为一系列策略,这些策略都在不同程度上利用自然序列和结构元素的功能。即使是从零开始的设计,尽管它们看似具有新的序列或总体结构,也是来自自然序列和结构的训练数据的产物,而且经常包含现有蛋白质的功能基序。因此,面对新的蛋白质设计挑战时,初始问题应该是:我可以使用哪个具有类似功能的现有蛋白质作为模板?功能要求与模板蛋白质之间的匹配程度随后决定了最适合任务的数据来源和模型策略。

酶设计

提高热稳定性:增加稳定性可以促进其他目标,如提高产量,防止由于聚集引起的失活和毒性,以及在最佳但具挑战性的温度和溶剂条件下操作酶(例如,由于低pH导致的变性)。通过增强进入定向进化的构建体的稳定性,也可能通过支持原本不稳定的变体具有所需的目标功能,来提高成功的机会。传统的非机器学习方法通常通过检测单一替代或天然蛋白片段的嵌合体组合的库来发现稳定突变,经常通过定向进化进行迭代。当如嵌合体这样的突变组合被检测时,序列-标签模型可以用来识别导致稳定性增加的关键突变。基于序列和序列-结构的模型在设计具有增强稳定性的蛋白质方面取得了惊人的成功,无需标签就可以绕过成本高昂的初步检测。这些模型虽然不直接预测折叠或熔点温度,但这些基于自然蛋白训练的生成模型输出的序列或结构可能性与稳定性强烈相关。

改变特异性或活性:受到自然蛋白质经常从同一家族和折叠演化出多种独特功能或对替代底物或反应的多样性启发,常见的设计策略是改变现有蛋白质。酶甚至可以被修改来催化自然界中尚未发现的反应。长期以来,酶的新化学设计依赖于定向进化或通过结构比较替换酶活性位点的方法。为了减少所需的突变-选择轮次,最近的定向进化努力在每一步用序列-标签模型设计的库替代了随机突变。

设计新的蛋白质骨架:在新骨架中嵌入小的功能基序使得功能组件的设计更加模块化(例如,融合多种属性)。一种方法是将兼容的结构与使结合或反应成为可能的残基的结构排列相结合。例如,基于已有的能与某些分子结合或反应的蛋白质域,通过替换活性位点来执行新的反应。通过常规的从零开始的方法在庞大的可能空间中找到合理的3D折叠,将空间缩小到具有有利折叠相互作用的明确定义的拓扑结构。这些方法的应用范围可能得益于新方法的扩展,这些新方法提出分子相互作用并识别兼容的骨架。

抗体设计的应用

机器学习在抗体设计中的角色:抗体因其对生物分子的显著特异性和亲和力而在生物医学中无处不在。以前,获取特定于治疗或科学目标的抗体需要动物接种。最近,抗体发现转向了大规模亲和力筛选,如酵母和噬菌体。然而,这些活动仍然成本高昂,成功保证低。机器学习驱动的抗体设计承诺降低这些成本并提高成功率。虽然我们希望直接设计特定的抗体,但计算方法目前限于加速发现过程中某些明确定义的步骤,如提高成功克隆的可能性,减少亲和力成熟的轮次,优化特异性,减少多反应性或确定抗体-目标复合物的3D结构。

增强现有抗体的特性:用于改进现有抗体的大多数机器学习模型依赖于深度测序或深度突变扫描作为训练数据。例如,Parkinson等人开发了一个序列-标签模型,基于原生抗体序列的预训练嵌入来预测酵母展示亲和力,然后用它来优化以增强其与PD-L1的结合。类似地,Saka等人训练了一个仅基于序列的LSTM模型,用于优化针对犬尿氨酸的抗体。

使用智能库加速亲和力活动:增加发现成功抗体的几率的一种策略是设计富含功能性抗体的智能起始库。尽管目前已知有数十亿抗体序列(例如,Observed Antibody Space数据库),但它们只代表了泛人类库的一小部分,作者预计随着新测序方法的可用,这个数字将显著增加。此外,由于合成成本远远落后于测序成本,定制库的潜力仍然受到限制。因此,研究人员开发了各种计算策略来近似功能性抗体序列空间。一个简单的方法是生成模仿单域抗体CDRs(互补决定区)已知3D结构中残基偏好的变体。这种方法已成功发现了针对两个不同的人类G蛋白偶联受体和SARS-CoV-2受体结合域的特异性纳米抗体。

从零开始设计抗体,给定一个目标:迄今为止,最接近机器学习驱动的从零开始抗体设计的例子是针对α-elapitoxin上的一个保守表位设计一个单个的Fn3域(模仿免疫球蛋白G折叠)。首先,通过对442个已知的自然Fn3域结构进行分子动力学模拟,生成了1.6百万个Fn3域,用来训练一个结构生成模型,然后有效地采样新的构象。其次,采样的合成结构通过基于PDB中残基相互作用的统计势能对目标进行对接。最后,使用序列-结构CNN模型生成特定序列,并通过Rosetta进一步优化。通过这种方法生成的大约6000个序列在实验中进行了筛选,以结合保守目标表位的五种毒素,结果发现一种设计能够结合其中三种毒素。为了使从零开始的抗体设计变得实用,它必须显著降低筛选所需的成本,通过减少必要的吞吐量、实现并行化、减少选择轮次或增加成功设计的比率。例如,Shanehsazzadeh等人利用一个基于已知抗体-抗原结构条件化的模型并使用了一个已知抗体(trastuzumab)的框架和轻链CDR序列,生成了新的重链CDR。这种方法设计的结合率高于通过从现有抗体库中随机抽样重链CDR产生的结合率。然而,更大的实际挑战将是在没有已知有效抗体的情况下,展示成功的设计。鉴于最近在设计能够结合目标的蛋白质折叠方面的成功,从零开始的抗体设计可能即将实现突破。这可能需要创新,如针对抗体的特定训练、同时进行序列和结构的优化,或更详细的结构建模,如原子级建模。

编译 | 曾全晨

审稿 | 王建民

参考资料

Notin, P., Rollins, N., Gal, Y. et al. Machine learning for functional protein design. Nat Biotechnol 42, 216–228 (2024). 

https://doi.org/10.1038/s41587-024-02127-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy