作者 | 夏宇航
审核 | 刘 旋
今天给大家分享的是湖南大学曾湘祥团队和中南大学曹东升团队合作表在IJCAI 2023上的论文:”GPMO: Gradient Perturbation-Based Contrastive Learning for Molecule Optimization”。优化具有所需性质的分子是从头药物设计中的关键步骤。虽然基于翻译的方法已经取得了初步的成功,但它们仍然“曝光偏差”问题的挑战。防止分子优化的“暴露偏差”问题的挑战在于需要对比学习中的正例分子和负例分子。而通过数据增强生成正分子需要特定领域的知识,而随机采样的负例分子很容易与真实的目标分子区分开来。因此,在这项工作中,本文提出了一种称为GPMO的分子优化方法,它利用基于梯度扰动的对比学习方法来防止基于翻译的分子优化过程中出现“曝光偏差”问题。在正负例分子的协助下,GPMO能够有效地处理真实目标分子和人造分子。GPMO是以用于药物发现的匹配分子对为条件的分子优化方法。研究表明,GPMO优于最先进的分子优化方法。此外,正负分子扰动提高了GPMO的鲁棒性。
Part1摘要
深度生成模型(DGM)通过分子对之间的翻译产生新的结构来优化分子,同时通过相似性约束保持原始分子的骨架。基于翻译的DGMs使用teacher-forcing 训练策略来训练,以预测先前token的真实标签,而不会生成错误的token。在测试阶段,基于翻译的DGMs依赖于模型对先前DGMs的预测,这可能与ground-truth上下文不同。这种训练和测试阶段之间的差异被称为“暴露偏差”问题。为了解决上述问题,本文提出了GPMO,它利用对比学习来克服teacher-forcing指导模型中的“暴露偏差”问题。作者引入梯度扰动,生成用于对比学习的负例分子和正例分子。GPMO以条件token和起始分子的SMILES作为模型输入。在编码器-解码器过程中,GPMO在没有特定领域知识的情况下生成负分子和正分子,并且这些分子用于训练具有对抗性损失的模型。GPMO通过向目标分子的隐藏状态添加小的梯度扰动来生成负分子,并且训练模型以最小化负分子的条件似然性,以确保其在对比学习期间被分类为负例。在GPMO中,使用对目标分子的隐藏状态的两步梯度微扰来产生正分子。Kullback-Leibler(KL)散度确保正分子和真实的分子的分布是相似的,从而保证正分子确实是正例。两步梯度扰动使正分子远离嵌入空间中的真实的分子。这将产生模型无法准确区分的具有挑战性的分子,为它提供更多有用的分子对来学习。
Part2模型介绍
GPMO的模型框架如下:
GPMO包括两个主要步骤:编码器-解码器的预训练和具有对比学习的条件分子优化。GPMO在预训练阶段通过掩码语言模型(MLM)和SMILES翻译任务学习SMILES的语法和分子之间的关系。条件token用于条件分子优化。在条件分子优化期间,通过梯度扰动生成正分子和负分子以用于对比学习。
2.1 负样本分子生成
对于负扰动d,关于d的对数似然为由于d是负扰动,因此关于d的对数似然应当被最小化。通常,线性近似可以定义为:其中,是在损失中反向传播的梯度。由于g是的梯度,因此在嵌入空间中接近,而不同于。通过负扰动获得的具有负分子的对比学习可以定义为:其中,,,,。是具有线性层和平均池化操作的投影函数。是批次中充当负分子的随机分子。的最小化将迫使负分子远离真实的分子。
2.2 正样本分子生成
两步扰动用于产生远离真实的分子的正分子。第一步扰动是相对于对比损失的梯度,其最大化配对分子之间的相似性并且最小化同一批次中未配对分子之间的相似性。基于正微扰的第一步得到中间正分子。然后,使用KL损失来约束中间阳性分子与真实的分子之间的分布相似性。接下来,第二正扰动是基于KL损失的梯度。最后,基于正微扰的第二步,得到另一个正分子。为了获得第一梯度扰动,对比损失用于训练模型以通过将分子对与未配对分子进行对比来学习真实的分子的表示。未配对分子是同一批次中随机取样的非目标输出分子。如图Ic所示,起始分子和靶分子被投射到潜在嵌入空间上。然后,使用对比学习来对比配对的分子与未配对的分子。定义为:其中,最大化分子对之间的表示相似性,并最小化同一批次内未配对分子之间的相似性。训练模型来学习真实的分子的表示。在的反向传播中,的梯度扰动是一个正扰动。因此,第一正扰动可以被定义为第一正扰动用于产生中间正分子。中间正分子的隐藏状态可以定义为:其中μ控制第一正扰动的权重。由于是中间正分子,因此在softmax层之后的分布应该与真实的分子相似。KL损失用于最小化中间阳性分子和真实的分子之间的分布,其可以定义为:通过最小化KL损失来实现正分子和真实的分子的分布相似性。由于KL损失使中间正分子和真实的分子之间的相似性最大化,因此从KL损失获得的梯度扰动也可以用作第二正扰动以产生最终正分子。通过第二步正微扰获得的正分子的隐藏状态可以定义为:其中,通过两步正微扰获得分子表示,导致在嵌入空间中远离真实的分子的正分子。然后,与正分子的对比损失可以写为:其中,是对比损失,它通过将难以区分的正分子与负分子进行对比来训练模型学习真实的分子的表示。
2.3 优化目标
真实的分子与生成的负分子和正分子进行对比,旨在区分它们并将生成的正分子与真实分子对齐。真实的分子充当锚并且其与阳性分子的相似性最大化,而其与阴性分子的相似性最小化(图la)。最后,可以通过最小化以下目标来估计编码器-解码器的参数:
Part3实验
GPMO在预训练阶段使用来自MOSES的数据集进行训练。在分子优化阶段,作者优化LogD 、Solubility 和Clint三种属性。
3.1 多属性优化实验结果
GPMO-w/o-per是GPMO的变体,它不使用基于梯度扰动的对比学习。GPMO-w/o-con是GPMO的变体,它不包括在编码器的输入中使用条件token。实验结果表示,作者的模型取得最好的效果。
3.2 多步优化实验结果
在多步优化设置中,作者的模型能够优化具有所需性质的分子,同时用起始分子约束相同的支架。
Part4总结
在这项工作中,本文提出了GPMO,梯度扰动为基础的对比学习网络的分子优化。大量的实验表明,通过适当的设计,GPMO能够找到满足多种性质的分子,其性能与使用深度学习的先进方法相当。
文章地址
https://www.ijcai.org/proceedings/2023/0549.pdf