Nat. Mach. Intell. | 校准的几何深度学习提高激酶-药物结合预测

537次阅读
没有评论

今天为大家介绍的是来自Yunan Luo和Jian Peng团队的一篇论文。蛋白激酶在调节多种细胞功能方面起着重要作用,对于癌症和其他疾病的药物研发具有显著的药理学潜力。尽管激酶抑制剂是被批准的药物中最大的一个类别,但许多人类激酶基因组(kinome)仍然未被探索,却可能有药物开发的潜力。计算方法,如机器学习,为探索激酶与化合物之间的相互作用和发现新的结合活性提供了高效的解决方案。尽管三维(3D)的蛋白质和化合物结构数据日益丰富,现有的方法主要还是利用来自一维蛋白质序列和二维分子图的局部特征来预测结合亲和力,而忽视了结合过程的三维特性。在这里,作者介绍了一个名为KDBNet的深度学习算法,它融合了三维蛋白质和分子结构数据来预测结合亲和力。KDBNet使用图神经网络来学习蛋白质结合位点和药物分子的结构表示,捕捉结合活动的几何和空间特征。

Nat. Mach. Intell. | 校准的几何深度学习提高激酶-药物结合预测

机器学习方法在化合物-蛋白质结合预测中的主要重要性是加速化合物或靶标的发现。有了准确的机器学习预测模型,可以通过应用该模型来生成关于结合活性的假设,从而选择预测活性最高的候选物进行进一步验证。然而,这些数据驱动的方法容易受到训练数据中固有噪声和偏差的影响,在应用于分布外的场景时容易失败。为了缓解这个问题,一个解决方案是量化模型预测的不确定性,提供一个支持人类决策的置信度评估,因为更高的新颖性通常伴随着更高的失败风险。尽管在机器学习算法中估算不确定性的重要性已被认识到,但大多数现有的化合物-蛋白质结合预测方法只提供估计预测,而不量化不确定性。在化合物或靶标发现的背景下,仅依靠点估计预测来选择顶级候选物进行验证可能会导致假阳性。目前还没有探索使用更具表现力的深度神经网络来量化激酶-药物结合预测的不确定性。在这里,作者开发了激酶-药物结合预测神经网络(KDBNet),一种深度学习算法,它集成了3D结构信息来预测激酶-药物结合的结合亲和力,同时估算预测的不确定性。KDBNet将3D蛋白质和分子结构数据表示为图,并使用图神经网络(GNNs)从蛋白质的结合口袋结构和分子的原子坐标中学习结构表示。作者将KDBNet构建为几个单个神经网络副本的集成模型,这不仅提高了预测的准确性和稳健性,还允许估算模型预测的不确定性。作者进一步应用了不确定性重新校准技术来完善不确定性估算,增强了KDBNet在机器学习引导的蛋白质和靶标发现中的实用性。

模型架构

Nat. Mach. Intell. | 校准的几何深度学习提高激酶-药物结合预测

图 1

KDBNet是一个深度学习模型,它结合了三维结构数据来预测激酶和小分子化合物之间的结合亲和力(参见图1)。KDBNet接收蛋白质和化合物的三维结构,并将它们表示为两个图。这些图的节点分别是蛋白质残基或分子原子,边则代表残基间的接触或原子间的距离。同时,针对蛋白质和分子图中的每个节点和边,KDBNet还提取了一系列特征,这些特征综合描述了蛋白质残基或化学原子的结构、进化、生物物理和化学属性。接下来,KDBNet使用图神经网络(GNNs)来学习输入激酶和化合物的结构表示,反映出三维蛋白质和分子结构的空间组织和拓扑邻域。然后,通过另一个全连接(FC)神经网络,将学到的表示组合起来预测结合亲和力。除了预测结合亲和力之外,KDBNet还为每个预测提供了不确定性估计,量化其对预测的信心。KDBNet通过训练多个模型的集成并使用各个模型预测的方差来实现这一点。

亲和力预测

Nat. Mach. Intell. | 校准的几何深度学习提高激酶-药物结合预测

图 2

作者首先利用两个公开的实验测量数据集,Davis和KIBA,评估了KDBNet在预测激酶-药物结合亲和力方面的表现。作者使用了三种评估设置,模拟了训练集和测试集不共享任何药物或蛋白质的情况(见图2a)。评估结果(见图2)表明,KDBNet在多个指标上,包括Pearson相关性、Spearman相关性和均方误差(MSE)上,始终优于其他方法。这些改进在各种分割设置中均保持不变。KDBNet的增强也突显了与依赖预计算、固定特征嵌入的方法相比,端到端特征学习的有效性。在将KDBNet应用于更大的KIBA数据集时,也得出了类似的观察结果,它超过了基准方法。KDBNet的改进主要源于其在神经网络中直接对蛋白质和分子的三维结构进行建模。作者的消融研究证实了这一点(图2c)。与仅考虑蛋白质和化合物的1D或2D表示的基准相比,KDBNet中的三维结构数据和结构衍生的几何特征提供了更明确的与结合活动相关的信息,这更好地尊重了结合活动的三维物理对称性,这些对称性可能不完全被1D或2D特征反映出来。即使与使用三维蛋白质-化合物结合复合物结构作为输入的最新方法在PDBbind数据库上进行比较,KDBNet也取得了与这些基于复合物的基准相当的表现(图2d),值得注意的是,复合物基方法在这种比较中具有优势,因为它们可以从复合物结构中捕捉到交互特征。尽管在预测性能上略有优势,但这些基于复合物的方法受限于结合复合物结构的可用性。

不确定性估计

准确的机器学习(ML)模型在预测蛋白质-化合物结合亲和力方面的一个直接应用是生成新假设,比如优先选择有前景的化合物,以协助药物发现和药物再利用。从实用的角度来看,除了预测亲和力外,模型能够提供相关的不确定性估计也是非常可取的,这使研究人员能够评估假设成功的可能性,并更有效地分配实验资源。与许多仅预测结合亲和力点估计而忽视数据或模型中不确定性的以往深度学习方法不同,KDBNet更进一步,为每个亲和力预测提供了一个不确定性估计。首先,作者调查KDBNet的不确定性估计是否能够反映预测准确性。理想情况下,模型的不确定性应与其预测误差相关,且不确定性较低的预测应有更低的预测误差。作者在Davis数据集上评估了KDBNet的不确定性量化。作者按照与之相关的不确定性估计对KDBNet的所有预测进行了排名),并观察到在不同的分割设置中,KDBNet预测的不确定性较低时,其预测误差也较低的一致趋势(图3a;平均Spearman相关性ρ̄ = 0.98)。与两种基于GP的方法GP和GP-多层感知器(GP-MLP)相比,KDBNet在不同不确定性百分比下实现了更低的平均绝对误差(图3a),并且在估计的不确定性和预测误差之间具有更高的相关性(图3b)。这表明KDBNet的不确定性估计在预测误差方面排序正确,当其不确定性水平较低时,其预测非常准确。之前的评估确认了KDBNet的不确定性估计提供了指示性排名。过度自信或缺乏自信的模型通常产生的不确定性估计要么太小要么太大,使它们难以解释为具有统计意义的可信区间。这个问题在不确定性量化中被称为校准误差。理想情况下,我们希望模型提供良好校准的不确定性估计,比如,如果模型预测了95%的置信区间,我们期望真实值95%的时间内落在该区间内。作者计算了校准误差区域来量化不确定性校准的程度,即模型的校准曲线与代表完全校准模型的对角线之间的区域。较低的校准误差区域表示更好的校准。KDBNet的校准曲线非常接近理想的对角曲线(图3d),产生的校准误差区域明显低于基于GP的方法观察到的区域(图3e)。此外,KDBNet的重新校准算法有效地将校准曲线推向对角线并减少了校准误差区域(图3d,e)。

主动学习

Nat. Mach. Intell. | 校准的几何深度学习提高激酶-药物结合预测

图 4

在验证了KDBNet能够提供信息丰富且校准的不确定性估计之后,作者开始评估不确定性在机器学习引导发现中的实用性。其第一个应用是主动学习,其目标是策略性地选择训练样本,以较少的训练数据实现更好的预测性能。类似于依靠直觉信心来获取和测试新样本的人类专家,KDBNet使用其估计的不确定性进行迭代训练和选择(图4a)。作者使用KIBA训练数据的随机1%子集开始训练KDBNet。在随后的每一轮中,KDBNet预测剩余训练数据的结合亲和力和不确定性,然后根据预测的不确定性从高到低对这些样本(药物-蛋白质对)进行排名(称为“探索性”策略)。为了比较,作者还考虑了另外两种排名策略(方法):(1)“贪婪”,优先选择预测亲和力较高的样本;(2)“随机”,对所有样本进行均匀随机排名。作者发现,KDBNet通过使用其估计的不确定性来获取新的训练样本,实现了高效的主动学习,仅使用50%的数据就达到了全数据训练的性能(图4b)。值得注意的是,与随机策略相比,KDBNet在最初几轮的性能提升幅度很大,突出显示了基于不确定性的主动学习与暴力随机搜索相比的效率。此外,与不断寻求最高亲和力样本的贪婪策略相比,KDBNet的探索性策略专注于能够多样化训练集并解决模型不确定性的样本,因此显示出更快的性能提升率和在所有主动学习阶段更高的效率收益(相对于随机选择的性能提升)。这些表明,通过不确定性量化,KDBNet实现了在数据获取和模型训练方面高效的样本主动学习,这在成本高昂的数据条件下是引导实验设计的宝贵能力。

编译 | 曾全晨

审稿 | 王建民

参考资料

Luo, Y., Liu, Y. & Peng, J. Calibrated geometric deep learning improves kinase–drug binding predictions. Nat Mach Intell 5, 1390–1401 (2023). 

https://doi.org/10.1038/s42256-023-00751-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy