全文速览
开发新药既昂贵又耗时。准确预测药物和靶标之间的相互作用可能会改变药物的发现方式。基于机器学习的蛋白质-配体相互作用预测已经显示出巨大的潜力。本文重点对基于序列和基于结构的蛋白质-配体相互作用机器学习方法进行了总结。因此,本文首先概述了该领域应用的数据集,以及用于表示蛋白质和配体的各种方法。然后,利用基于序列和基于结构的分类标准对经典机器学习模型和深度学习模型进行分类和总结,用于蛋白质-配体相互作用的研究。此外,还提出了这些模型的评价方法和可解释性。此外,深入探讨了蛋白质-配体相互作用模型在药物研究中的各种应用。最后,讨论了该领域目前面临的挑战和未来的发展方向。
图文全解
蛋白质在细胞内或细胞间的各种生物过程中发挥着重要作用,包括催化反应、传递信号和构建细胞结构。然而,大多数蛋白质在执行其功能时不是自主的;它们需要与其他分子相互作用来完成生理任务。这种相互作用可以通过配体结合过程来促进,该过程涉及小分子或离子附着到蛋白质上;这个动作将激活或抑制它们的功能了解蛋白质-配体相互作用(PLIs)的机制有助于设计新的药物,因为这些药物是由于与蛋白质相互作用而发挥治疗作用的。明确PLIs的机制不仅有助于加快药物设计的进程,而且可以有效地揭示疾病的发病机制,为新药的发现和设计提供思路。此外,与传统昂贵且耗时的生物实验相比,使用计算方法识别蛋白质-配体相互作用的优势可以概括为三个主要点。首先,计算方法具有成本效益,因为它们能够以高通量的方式预测和筛选许多蛋白质-配体相互作用。其次,这些方法具有可控性,可以通过调整算法的参数和模型的设置来优化和控制。这使得针对特定研究问题或目标的定制预测和分析成为可能,而不受实验室条件和实验周期的限制。因此,计算方法提供了更大的灵活性和便利性。最后,计算方法为相互作用的机制和结构特征提供了有价值的见解。基于深入的计算和分析蛋白质-配体相互作用,计算方法有助于更深入地了解的本质。
更详细地说,用于识别PLIs的计算方法可以根据蛋白质系统的维度分为两类:基于序列的方法和基于结构的方法。前者旨在通过分析进化信息来识别结合位点残基。这些方法利用蛋白质序列的模式和相似性来预测潜在的结合位点。至于其他方法,他们依靠对蛋白质三维结构的分析来进行预测。这种方法并不仅仅依赖于注释蛋白结合残基的生物学功能,而是利用结构特征来识别潜在的结合位点。考虑到这两种方法,研究人员可以全面了解蛋白质-配体的相互作用。
图1显示了预测蛋白质配体相互作用的机器学习(ML)过程。蛋白质-配体相互作用的鉴定可分为三大类:蛋白质-配体亲和力预测、蛋白质-配体结合位点预测和蛋白质-配体相互作用预测。近年来,由于人工智能(AI)等计算技术的进步,蛋白质-配体相互作用的预测取得了重大进展。例如,基于与靶蛋白相互作用的可能性,ML方法能够从大规模分子数据库中快速筛选潜在的配体分子。此外,人工智能技术可以分析蛋白质和配体分子的结构信息,从而有助于预测基本参数,如结合模式和强度。这些进展大大加快了研究蛋白质-配体相互作用的进程,并有望在药物发现和生物技术中的各种应用。
数据集
蛋白质-配体相互作用的高质量数据集的可用性是该领域ML算法发展和评估的关键因素。为了保证模型对不同场景的通用性,这些数据集应该具有一定的特征。首先,它们应该包括一个大的样本量,包括不同的蛋白质家族、配体类型(如小分子、肽)和生物活性(如活化、抑制等)其次,数据必须经过仔细筛选和验证;此外,它通常必须包括由实验证据、高分辨率晶体结构和生物活性验证支持的相互作用对。一些公开可用的数据集已广泛用于蛋白质-配体相互作用预测研究。因此,表1提供了这些数据集的概述,包括关于数据源的信息、序列或结构信息的存在、作为基线数据集的适用性、对经典ML或DL方法的适用性,以及预测信息的类型。最后,这些数据集为预测蛋白质-配体相互作用的ML技术研究提供了宝贵的资源。
特征工程
对于预测PLIs的计算模型,有必要清楚地说明蛋白质和药物的表示方法。ML和DL方法的输入可以是序列、提取的分子指纹、结构信息或所有三种技术的组合(图2)。根据具体问题和数据的可用性仔细选择表示方法是至关重要的。该领域的研究人员不断探索新的方法来提高PLIs预测模型的准确性和效率,旨在促进药物发现和设计过程。综上所述,本节将介绍作为ML表示方法的蛋白质和配体。蛋白质表示方法可以根据序列、进化信息和蛋白质结构分为三类。在氨基酸序列方面,它们的进化信息高度保守。考虑到蛋白质的进化、结构特征或相似性,氨基酸序列通常采用单热编码等方法进行表征。DL模型需要栅格式数据输入和独热编码的氨基酸属性编码;因此,位置加权矩阵完全满足要求其中,UniProt和Protein Data Bank (PDB)是获取蛋白质序列和结构信息的主要数据来源。更详细地说,PDB包含有关化合物-蛋白质相互作用的信息,包括配体特异性空间构象;然而,PDB的一个问题在于结构特征蛋白的数量远远小于具有确定氨基酸序列的蛋白质的数量。因此,利用蛋白质结构信息进行计算机辅助药物设计是非常有限的。相反,AlphaFold2已经证明,使用氨基酸序列预测蛋白质结构是非常有效的。
此外,利用进化信息构建基于氨基酸序列的结构描述符。这些描述符可用于提取与不同任务的结构特征或原始二级结构相关的特征。例如,基于进化信息,可以提取单个氨基酸的坐标、静电特性或表面积的坐标。功能蛋白的结构不仅仅是氨基酸的组合,而是由蛋白质折叠形成的三维结构组成。稳定的三维结构的形成是由于氨基酸之间的相互作用,通过提供有关结合位点和相互作用的关键信息,也影响了蛋白质-化合物的相互作用。此外,AtomNet是第一个使用3D结构和深度学习来预测蛋白质-配体结合亲和力的模型,研究人员从蛋白质复杂的3D网格中提取特征。此外,3DCNN和SE-OnionNet从对接软件获得的数据中提取蛋白质-配体复合物特征,预测结合亲和力。总的来说,这些不同的表示蛋白质的方法在蛋白质序列分析、进化信息和结构特征方面提供了不同的视角,因此在药物设计和蛋白质功能预测等不同领域有不同的应用。
分子表示法包含了以人类容易理解的格式描述分子的各种方法,包括字符、图表或图像,以其不同的维度为特征。一种广泛使用的一维格式是简化分子输入行输入系统(SMILES),它根据特定规则分配唯一的字符串来表示分子。此外,这些字符串可以被编码成独热向量,以便插入到深度学习模型中,从而能够有效地表示化学空间。除了SMILES,其他字符串格式,如SMARTS和SELFIES,突出子结构或反映分子中的语义约束。这些不同的格式提供了表示分子的替代方法,提供了对其特性的额外见解。此外,构建化学指纹图谱可以更全面地了解药物分子的结构。它们通过布尔值来区分药物分子的二级结构。此外,指纹方案的生成方法也多种多样,如扩展连接指纹、PubChem指纹等。这些方案分为两类:基于拓扑的方法和基于智能的方法。前者计算原子和键之间的拓扑距离来表征它们,而后者考虑键顺序和键芳香性的模式。值得注意的是,指纹图谱由于其丰富直观的信息,在化学信息学中得到了广泛的应用。
分子图神经网络可以在二维表示中访问。对于GNN,它们被用来处理非欧几里得数据,将其转换成图。它们的主要目标是在保留基本几何特征的同时,通过图嵌入来定义低维和判别特征空间。在药物分子的背景下,基于图的学习策略使用图的邻接矩阵表示分子节点和键。这种方法捕获点和边特征的能力,包括特定原子和键的数量、分支程度、原子杂交程度、原子间距离和整体形状,有助于更全面地了解药物的性质。三维表示传递有关分子空间结构的信息,包括构象相关距离和分子表面性质。例如,Bohm等人对苯甲酰胺抑制剂的配体亲和力差异进行了研究,使用比较分子场分析方法和相似指数分析方法模拟了它们对凝血酶和胰蛋白酶的结合亲和力。此外,Liu等人引入了图多视图预训练框架,利用二维拓扑和三维几何视图之间的对应性和一致性来增强具有更丰富三维几何视图的二维分子图编码器。这种方法表明,结合三维几何图形提供了互补和更全面的信息。此外,Zhou等人提出了Uni- Mol框架,这是一种广义的3D分子表示,通过适当整合3D信息,擅长于3D空间任务,如蛋白质-配体结合位姿预测和分子构象生成。在机器学习领域,识别关键结构特征对于揭示蛋白质配体与性质之间的关系至关重要。优秀的分子表征必须符合以下几个条件:(1)表达性:考虑到化学空间的复杂性,表征应该具有足够的表达能力来捕捉广泛的结构和性质变化,使模型能够辨别分子之间的相似性和细微差异,同时能够区分分子之间的微小差异。(2)简洁性:考虑到大规模实验对化学数据集规模和多样性的限制,保持输入特征空间的简洁性是保证模型在噪声中能够高效学习重要特征的关键。(3)不变性:确保相同的分子输入始终产生相同的输出要求分子表示是不变的,例如,关于原子序数,确保模型的一致性和可靠性。(4)可解释性:强调模型性能源于相关模式,而不是混杂变量或实验噪声,这是确保模型可解释性的关键。在蛋白质-配体相互作用建模中,配体的表征在确定其对蛋白质结合的亲和力方面起着至关重要的作用。有效地捕捉配体的特征是揭示其在蛋白质上的结合位点的关键。预测建模必须考虑配体的三维形状、旋转和振动等因素,以全面表征其与蛋白质的相互作用。此外,配体的化学性质,包括电荷、疏水性和亲水性,以及蛋白质-配体结合引起的能量变化,如范德华力、静电相互作用和氢键,也会显著影响蛋白质的相互作用。
蛋白质-配体混合特征是一种结合了蛋白质-配体复合物信息的特征表示。这些混合特征可以使用各种技术来构建,例如分子对接,分子动力学(MD)模拟或ML模型例如,分子对接被用于预测配体与蛋白质的结合方向和能量。由此产生的复合物可用于提取捕获蛋白质和配体表示的特征。RF-score-v3方法选择三组不同的特征,其中包含来自Cyscore的4个能量项,来自autodock Vina的6个能量项,37和36个蛋白质配体原子对计数。此外,复合特征的应用有助于更准确的预测。同样,MD模拟也用于捕获蛋白质-配体复合物随时间的动态行为,并根据两种分子之间不断变化的相互作用提取杂交特征。例如,Riniker提出了一种称为MDFP的指纹,该指纹由从MD模拟中提取的诸如势能分量、旋转半径和溶剂可及表面积等属性的分布构建而成。对于机器学习模型,它们也可以在蛋白质-配体复合物上进行训练,以提取能够捕获蛋白质和配体之间基本相互作用的杂交特征;因此,它们可以用于预测蛋白质-配体相互作用的模型。此外,Lu 等引入了一种知识蒸馏洞察药物靶标亲和力预测模型,并通过可视化研究了该模型的可解释性。他们发现,提出的方法可以为蛋白质-配体复合物的相互作用提供有意义的解释。总的来说,蛋白质-配体杂交特征提供了蛋白质和配体之间复杂相互作用的丰富表示,可以作为药物发现和设计的有力工具。关于原子密度的三维网格,它们作为一种特征表示来捕捉分子中原子的空间分布。这种表示包括将分子周围的三维空间划分为细胞网格,其中每个细胞包含与该区域原子密度相关的信息。至于密度信息,它通常来自分子的原子坐标,可以使用不同的技术来表示,例如应用高斯函数或基于直方图的方法。此外,它已用于各种ML模型来预测蛋白质-配体相互作用。例如,这些网格可以用来编码配体的形状和静电特性,因为它们是决定配体与蛋白质之间结合亲和力的重要因素。同样,网格可以用来表示蛋白质结合位点的形状和静电特性,有助于识别蛋白质表面潜在的配体结合位点。
先进的数学建模从代数拓扑,微分几何和代数图理论已被应用于表示蛋白质-配体相互作用。因此,Meng等人提出了持久光谱方法,通过ML预测亲和力。该方法将滤波过程与光谱模型(谱图、谱简单复合体和谱超图)相结合,启动一系列嵌套的拓扑表示。该团队随后提出了持久光谱超图,其中分子结构和原子水平的相互作用被建模为超图,并引入过滤过程来生成一系列嵌套的超图目前,这些研究人员提出了一种等尺寸的分子二维图像表示,即分子持久光谱图像(Mol-PSI),并将其与CNN模型相结合,用于基于人工智能的药物设计相互作用指纹图谱是一种表示和分析三维蛋白质-配体复合物的方法。此外,它还编码结合位点和一组载体之间的特定相互作用。例如,Chupakhin等人是第一批使用交互指纹技术来识别和聚集具有相似绑定模式的对接姿势的人,揭示了一组固定大小的指纹用于不同的绑定相互作用。这种表示包括计算一组数值,这些数值描述了原子对之间相互作用的强度和类型,例如氢键、静电相互作用和范德华相互作用。
讨论与挑战
在本文中,我们讨论了预测蛋白质-配体相互作用的数据集、代表性特征、基于序列和基于结构的预测方法。ML技术已被证明是预测蛋白质-配体相互作用的有力工具。基于氨基酸序列或3D结构预测蛋白质和配体之间结合亲和力的能力,已经能够识别新的药物和治疗剂。此外,基于序列的方法不需要对蛋白质和配体进行结构建模和计算,可以大大缩短预测时间,提高系统效率;因此,蛋白质序列信息对于所有类型的蛋白质和配体,包括已知和未知序列,都是易于获取和高度可扩展的,具有广泛的适用性。基于结构的方法通过考虑蛋白质和配体的3D结构来捕获蛋白质和配体之间的物理相互作用,并通过分析蛋白质和配体之间的细节(如结合位点、氢键、离子对和疏水相互作用)来深入了解蛋白质和配体之间的相互作用机制。通过分析蛋白质和配体相互作用的结构特征,可以设计和构建具有特定功能的蛋白质变体,如蛋白质抗体、酶和受体。这两种方法不是相互排斥的,而是可以相互结合使用的。例如,可以同时利用蛋白质序列信息和结构信息来提取特征,以便更全面地表示信息,并进一步提高蛋白质-配体相互作用预测的性能。在这里,我们概述了下面基于序列和基于结构的所有模型,并在图3中总结了它们的时间轴。在这篇综述中,分别比较了基于序列和结构的蛋白质-配体亲和力模型。最近发表的大型工作证明了这一快速发展的领域。此外,表2报告了在Davis和KIBA基准测试上应用的几个Cl、MSE和R2。因此,基于序列的蛋白质-配体亲和预测模型在模型构建方面是相似的。大多数方法分别基于蛋白质序列和小分子的SMILES字符串或分子图谱的表示,然后使用各种类型的神经网络进行特征提取,然后通过全连接层将两个特征集拼接得到蛋白质和配体的亲和关系。至于表3,它报告了几种基于结构的模型在CASF-2016和CASF-2013基准上的蛋白质-配体结合亲和力预测的性能。这些模型依赖于蛋白质和配体之间的结构信息,包括原子坐标、键和分子形状,分析这些信息来预测蛋白质-配体之间的结合亲和力。
目前基于结构的蛋白质-配体亲和模型是使用PDBBind数据库进行训练和测试的,PDBBind数据库主要用作表示蛋白质与小分子之间结合能力的单一度量。这种单一度量的使用可能不能完全捕捉分子之间复杂的相互作用。因此,结构是静态快照,而生物分子的活性通常涉及动态结构变化。至于PDBBind数据库,它可能没有提供足够的信息来解释动态绑定过程。此外,目前基于结构的模型过分强调基准测试集的性能,而忽略了模型的泛化能力,导致陷入狭窄的评估陷阱。值得注意的是,基准测试集不能完全涵盖蛋白质-配体复合物模型面临的各种挑战。因此,为了确保模型的可靠性和有用性,我们应该更多地关注模型在未见数据上的性能,以及它泛化各种上下文的能力。
此外,基于序列和基于结构的方法都可以提供准确的PLIs预测。这两种类型的计算方法有其特定的优点。更详细地说,序列数据可以通过公开可用的数据库、基因组学数据和高通量测序获得,基于序列的方法可以很容易地更新和扩展。至于基于结构的评分功能,它们是数据驱动的,结构信息包含蛋白质和配体的空间构象,允许隐式捕获难以明确建模的结合效应,并允许快速筛选大量化合物。然而,预测蛋白质配体相互作用仍然存在局限性,也给出了可能的策略来解决这些问题(图4),例如(1)预测鲁棒性,由于训练样本的不平衡性质,这可能导致不准确的预测,(2)缺乏负样本,以及(3)蛋白质和配体数据中存在噪声。这导致了对构建高质量数据集的高需求,并且需要结合领域知识来构建和测试有效的模型。尽管基于深度学习的预测方法在过去几年得到了应用和推广,但这类方法仍然存在一些问题和不足。一个关键问题是,与经典ML算法相比,深度学习算法通常需要极高的训练(生成昂贵的计算资源,庞大的训练集等)。关于深度学习方法在所有情况下是否总是优于经典ML算法的研究也没有定论。经典的机器学习算法,甚至一些基于3D结构预测结合亲和力的方法,都在不断优化。此外,在一些低维或少量数据的情况下,深度学习算法的表现与经典ML算法相似。因此,如何利用深度学习来获得蛋白质-配体相互作用预测的最佳解决方案仍然是一个悬而未决的问题。数据集的大小、质量和多样性对模型的性能有重要影响。如果数据集很小,模型可能会过拟合;如果数据集有偏差,模型可能泛化得很差。尽可能地扩展数据集,使用各种数据增强技术,例如去除异常值、缺失值和重复,并正确标记数据,这些方法对于提高模型性能至关重要。优秀的特征工程是提高模型性能的关键。基于序列的方法仅使用蛋白质和配体的氨基酸序列信息,而忽略了与其空间结构相关的信息。这意味着一些重要的相互作用细节和结构特征可能被忽视,一些相互作用可能依赖于特定的结构构象或结构域间的相互作用,基于序列的方法在预测蛋白质的结构变异(如蛋白质的构象变化或蛋白质溶解度的变化)方面并不有效。这些因素可能对蛋白质-配体相互作用有重要影响;然而,在序列级别上仍然很难捕获。对于结构方法,蛋白质-配体相互作用是动态处理的,结构可能在不同条件下发生变化。因此,基于静态结构的方法无法捕捉到这种动态,因此可能会错过蛋白质-配体相互作用的重要细节和动态机制。因此,一些蛋白质-配体复合物的结构可能难以分辨或不完整。这可能导致不准确或不完整的预测结果。
模型体系结构、模型复杂性、深度、宽度和各种正则化策略都会影响模型的性能。尝试不同的模型架构,例如,卷积神经网络或循环神经网络,以找到问题的最佳模型。使用dropout、weight decay等正则化策略来防止过拟合,集成学习可以进一步提高模型性能。作为人工智能模型的常见问题,大多数方法的泛化能力仍然有限,并且对作用于全新目标的小分子的预测往往令人不满意。因此,未来的主要方向之一是依靠生成更多高质量的实验数据来提高模型的泛化能力。另一方面,它可能需要灵活使用新的训练策略。其次,目前的评价体系还有待加强,常用的基准测试,如Davis、KIBA、CASF2016等测试集,并不能准确反映模型的真实预测性能。因此,研究人员有必要获取更多符合实际需求的数据集来进行模型评估和验证。当然,大多数模型的可解释性仍然不令人满意,这使得它们难以适应真实的药物设计场景。为了解决上述问题,不仅需要更高质量的数据集,还需要更新颖的机器学习策略,例如,蛋白质-配体相互作用涉及多个尺度,包括原子水平的相互作用,分子水平的结构和构象,以及宏观的生物效应。蛋白质和配体的结构动力学可以使用多模态和多标量建模或通过开发广义机器学习力场来更好地理解蛋白质-配体相互作用的机制和能量。使用基于语言的大型模型预训练也可能探索蛋白质-配体相互作用机制。更多可能的解决方案策略如图4所示。最后,虽然这项工作重组了几乎所有关于蛋白质-配体相互作用预测的重要出版物,但可以预见,在未来,这些机器学习方法将广泛应用于药物研究领域,从而大大缩短药物开发周期。
参考资料
Zhang, Yunjiang, Shuyuan Li, Kong Meng, and Shaorui Sun. “Machine Learning for Sequence and Structure-Based Protein–Ligand Interaction Prediction.” Journal of Chemical Information and Modeling (2024).