编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自Kyunghyun Cho和Richard Bonneau团队的一篇论文。在生物技术领域,挖掘序列(sequence)、结构(structure)和功能(function)之间的关系,需要更好的方法来比对那些与已经标注的蛋白质序列相似度较低的蛋白质。作者开发了两种深度学习方法来解决这一难题,即TM-Vec和DeepBLAST。TM-Vec允许在大型序列数据库中搜索结构-结构的相似性。它经过训练,能够直接从序列对预测TM分数,作为结构相似性的度量,无需中间计算或解析结构。一旦识别出结构相似的蛋白质,DeepBLAST就可以仅使用序列信息来结构性地比对蛋白质,识别蛋白质之间的结构同源区域。
通过使用序列相似度检测蛋白质序列同源性是识别进化上保守的、在蛋白质间共有的功能的标准方法。在过去的50年里,序列同源性促进了包括蛋白质功能注释]等一系列应用的发展。许多标准的序列同源性方法对于具有高序列相似度(>25%)的蛋白质是可靠的。然而,与序列同源性不同,结构同源性可以在长的进化时间尺度上保持。超过一半的蛋白质由于它们遥远的进化关系,在标准序列数据库中没有同源性。最近的宏基因组学研究显示,使用结构同源性检测,注释率可以提高到70%。
当蛋白质结构可用时,如TM-align等结构比对工具可以通过叠加提供结构相似度的度量。虽然这种方法可以在低序列相似性情况下提供结构相似度的度量,但有两个主要限制。首先,并不是所有蛋白质都有可用的结构。尽管AlphaFold2取得了迅速的进展,但已知蛋白质序列与可预测蛋白质结构之间仍存在较大差距。仅在宏基因组学样本中,就观察到24亿至680亿种独特蛋白质。此外,AlphaFold2在预测短序列蛋白质结构方面的应用有限。
鉴于蛋白质结构数据库的快速增长,大多数现有的结构比对工具在规模上运行起来过于计算密集,需要进行暴力的全面比较来查询结构相似的蛋白质。尽管有用于结构数据库的可扩展同源性搜索的新兴工具,以及用于搜索或比对的蛋白质嵌入工具(表1),但也需要能够在大型蛋白质序列数据库上执行显式结构相似性搜索和比对的工具。为了实现在蛋白质序列上可扩展的、结构意识的搜索和比对,作者开发了两种工具,TM-Vec和DeepBLAST。TM-Vec可以计算准确的结构相似性分数;它输出蛋白质的向量表示,并可用于构建可索引的数据库,以便通过结构相似性高效查询蛋白质。DeepBLAST可以从序列对计算结构比对。
模型
图 1
作者的贡献有两个方面:(1)作者引入了一个可扩展的结构搜索框架TM-Vec,它在速度和灵敏度上提供了显著的改进(见图1);(2)作者引入了一个可微分的序列比对算法DeepBLAST,它能执行结构比对。TM-Vec是一个双神经网络模型,产生可以高效索引和查询的蛋白质向量(见图1)。为了在这些蛋白质向量中编码结构信息,TM-Vec被训练以近似具有结构的蛋白质对的TM分数(作为结构相似度的指标)。一旦TM-Vec模型被训练,它可以用来编码大型蛋白质序列数据库,为这些蛋白质序列产生具有结构意识的向量嵌入。创建TM-Vec向量嵌入数据库后,可以通过在嵌入空间中寻找最近邻居来快速进行蛋白质结构搜索。DeepBLAST的基础是通过在具有序列和结构的蛋白质上训练模型来预测蛋白质的结构比对。作者的比对策略使用最近在可微分动态规划和蛋白质语言模型方面的方法,来预测由TM-align给出的蛋白质序列对的结构比对。
表 1
基于神经网络的可扩展结构对齐
图 2
作者将提出的结构比对算法应用于大规模蛋白质数据库,这项任务挑战在于其苛刻的运行时间要求。每一个DeepBLAST结构比对大约需要毫秒级时间,并且其时间复杂度与数据库大小线性相关,这使得在大型数据库上进行结构比对搜索变得不切实际。为了缓解这一问题,作者开发了TM-Vec,这是一个旨在高效查询结构相似蛋白质的模型。该策略依赖于构建双神经网络,其目的是提供用于快速索引的每个蛋白质的向量。作者在SWISS-MODEL和CATH数据库上对TM-Vec进行了基准测试(见图2),并与多种最新的基于结构和基于序列的方法进行了比较。总体来说,TM-Vec预测的TM得分与通过运行TM-align产生的TM得分之间存在强相关性。
在潜空间捕捉结构信息
作者对TM-Vec产生的学习表示进行了可视化和基准测试,并与其他依赖于序列或结构单独信息的替代方法进行了比较。基准测试结果显示,TM-Vec隐式学习的表示与结构分类高度相关(见图2)。如图2c所示,TM-Vec嵌入捕获了CATH层次结构的潜在结构特征。作为对比,基于TM-Vec的预训练语言模型ProtTrans生成的嵌入,与训练后的TM-Vec嵌入并排显示(见图2c)。ProtTrans对蛋白质的嵌入是通过平均ProtTrans每残基嵌入计算得出的。在CATH的每一个层级,TM-Vec比默认的ProtTrans嵌入更清晰地分离了CATH结构类别。
为了进一步评估TM-Vec蛋白质向量的结构信息,作者使用TM-Vec编码了CATH数据库,并进行了搜索和分类。在搜索基准测试中,作者观察到TM-Vec能够正确地检索具有相同折叠的蛋白质,在CATHS100中的准确率为97%,在CATHS40中为88.1%。接下来,作者将TM-Vec检索与FoldSeek、MMseqs2,以及另一种结构蛋白质嵌入方法进行了比较。在CATH层次结构的每个级别上,TM-Vec的性能超过了FoldSeek、MMseqs2和ProtTucker。在同源性级别上,TM-Vec以81%的准确率检索了蛋白质。由于这个蛋白质的测试集较小,作者选择在CATHS20数据集上比较了这些不同的方法。评估标准是检索查询域正确的CATH同源性的准确性。在这里,TM-Vec模型表现最佳(准确率88%)。
基于序列的结构比对
表 2
作者使用DeepBLAST对三种序列比对方法进行了基准测试:Needleman–Wunsch、BLAST和HMMER,除此之外还有四种直接使用原子坐标进行结构比对的方法:FAST、TM-align、Dali和Mammoth-local(见表2)。作者的方法DeepBLAST仅使用序列;在训练之后没有向算法提供任何一个蛋白质的原子坐标。如表2所示,DeepBLAST在所有测试的序列比对方法中表现最佳。
远缘同源性检测与比对
图 3
为了衡量TM-Vec与现有结构比对方法的性能,作者将TM-Vec应用于经过策划的Malidup蛋白质结构比对基准测试数据集,这是一个难度较大的基准测试,具有低序列同一性和不同程度的结构相似性。这个基准测试中的每对蛋白质在结构上都有一个显著的相似区域,一个手动策划的结构—结构比对。基准测试结构比对方法的挑战之一是定义真实的结构比对。如图3a所示,手动比对和结构比对方法之间存在细微的分歧,凸显了在定义最优结构比对方面的不确定性。所有跟结构相关的方法在高结构相似性下是一致的,TM得分为1表示所有原子的完美叠加,但随着TM得分的下降,结果越来越不一致。作者观察到TM-Vec与结构相关的方法直接可比,其趋势线的置信带与TM-align的趋势线重叠(见图3a)。尽管趋势线重叠,但TM-Vec和DeepBLAST的预测误差的方差比结构相关的方法要大。为了确定序列比对方法与结构比对方法之间的一致性,作者计算了预测比对的TM得分。尽管DeepBLAST并不总是能泛化到高度分歧蛋白质比对,但为了举例说明作者的方法确实获得了高度分歧蛋白质的正确比对,作者专注于两个重复的Annexin域,其序列同一性为24.7%。DeepBLAST准确地对齐了这些蛋白质(TM得分=0.81),五个叠加的折叠中有四个与手动比对一致(见图3b-d)。
参考资料
Hamamsy, T., Morton, J.T., Blackwell, R. et al. Protein remote homology detection and structural alignment using deep learning. Nat Biotechnol (2023).
https://doi.org/10.1038/s41587-023-01917-2