ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

699次阅读
没有评论

今天为大家介绍的是来自Amol Thakkar团队的一篇论文。数据驱动的逆合成方法在用户交互、预测多样性以及提出非直观断裂策略方面存在限制。在这里,作者将自然语言处理中基于提示的推理概念扩展到化学语言建模的任务。作者展示了通过使用描述分子中断裂位点的提示,引导模型提出更广泛的前体集合,从而克服逆合成推荐中训练数据的偏见,并实现了相较于基线水平39%的性能提升。

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

逆合成是确定合成特定目标分子所需的最佳步骤序列的任务,其出发点是从容易获得的基本构建块开始。20世纪60年代,Corey等人率先对这一过程进行了数字化处理,此后,从基于专家系统的启发式方法到数据驱动的深度学习,研究人员提出了一系列不同的方法。当由领域专家执行时,单步逆合成分析(即,将目标产物分解为其组成的前体集合)可以视为一个两步过程。首先,专家通过考虑形成特定化学键(图1)相对于所有其他现有键的竞争性,来识别一个合适的断裂位点。其次,关注点转移到基于化学、区域和立体选择性方面,选择一个最优的转化,同时优化产量、可持续性和成本。

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 1

尽管断裂位点的选择应仅基于下游合成路径,但它经常受到实践人员化学知识的强烈影响。对于数据驱动的方法,其固有的化学反应性偏见也来源于训练数据集,同样如此。在不同的计算机辅助化学合成规划方案中,基于深度学习使用自然语言处理(NLP)的方法由于其高预测准确性、易于采用、无缝扩展到新反应类别、以及广泛应用于数字化化学任务而变得流行。总体而言,语言模型的巨大优势在于它们可以直接从原始数据学习控制化学转换的规则,而不需要人工编码的逻辑。这些模型通常依赖于使用Transformer架构和SMILES符号,将预测视为翻译任务。给定一个目标分子,语言模型建议最佳的前体集合(即反应物,可能还包括其他试剂)作为翻译的结果,有可能生成多个这样的集合。然而,类似于人类偏好更熟悉的反应类别的偏见,数据驱动模型展示了从用于训练的反应数据集中继承的偏见。这导致预测的多样性差,所提出的逆合成断裂通常属于训练数据集中最丰富的反应类别,例如那些来自专利的保护/去保护或氧化/还原。这些建议中的固有偏见隐藏了多个断裂位点所包含的更广泛选项,从而限制了前体的多样性,进而降低了任何计算机辅助合成计划的有效性。

与之前使用语言模型预测化学反应的方法相比,作者首次引入了在逆合成推断任务中用人类或机器输入引导化学预测的概念(图1)。作者引入了指定断裂位点的提示,以将深度学习算法与领域知识和经验相结合。这些断裂提示可以是人工标记的或机器标记的,它们用于引导产物转化为一组前体,从而导致预测反应类别多样性的改善超过100%。

实验部分

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 2

化学语言建模主要使用序列到序列的Transformer架构。当应用于逆合成时,分子的SMILES字符串被用作输入,模型生成一组前体(反应物和试剂)作为翻译的结果。作者以Schwaller等人开发的“Molecular Transformer”(MT)作为本文的提示驱动断裂意识模型(图2)的基线模型。基线模型不是直接用于基于提示的学习,也不能在其输入中接受引导提示。为了克服这个问题,作者开发了断裂意识模型,它可以使用额外的输入提示翻译的结果,与仅基于训练数据集中化学转换的潜在概率分布向某些断裂生成预测的基线模型相对。为了比较断裂意识模型和基线模型,作者利用断裂信息选择了与选定断裂位点匹配的基线模型生成的前体。使用引导提示的结果是准确性增加了39%(即,在39%的情况下,基线模型无法产生与断裂位点匹配的合适前体)。此外观察到与基线相比,断裂意识模型的反应类别多样性增加了100%(2倍)。

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 3

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 4

基线的模型不支持用户定义的提示。因此,在所有评估的数据集中,当与包含标记断裂位点(提示)的输入结合使用时,基线模型没有预测能力。因此,作者使用包含标记提示的产物SMILES作为输入(如图2C所示)以及使用数据集给出的前体作为标签(图2D)来训练断裂意识模型。作者最感兴趣的是两个指标:首先是Schwaller等人开发的往返准确性,以确定是否可以从预测的前体重新生成所需的产物;其次是断裂准确性,以确定预测的前体是否对应于用户定义位置的断裂(图3)。断裂准确性是通过重建使用输入产物和预测的前体的反应来计算的,从中可以确定断裂位点。如果断裂位点与测试集中的匹配,则断裂准确性会有积极的影响。此外,准确性指标是根据标记原子的数量而不是采用整体TopN准确性来报告的。这个指标提供了对数据集中存在的断裂类型、它们如何被复制以及模型是否倾向于给定断裂类型的更细致理解——这些信息仅使用TopN指标无法获得。作者确定断裂意识模型就断裂准确性而言超过基线模型39%(图3A)。这证明了断裂意识模型比基线模型更能够重建对应于用户指定断裂的反应。此外观察到断裂和往返准确性与给定原子标记数量的训练数据的可用性相关(图3A,B)。最值得注意的是当标记数量等于四时性能下降,因为作者处理的USPTO50k数据集中没有相关示例。然而,尽管USPTO50k数据集中没有包含四个原子标记的训练示例,模型仍然能够恢复20%的反应,从而证明模型可以推断到未见过的反应。同样,当标记数量大于五时,由于训练数据的可用性下降,观察到性能较低。此外,作者观察到专利数据对涉及两个原子的断裂位点(即一次键变化)有偏见。这些发现与Böstrom等人进行的调查以及其他研究公共和专有数据集中报道的反应类型频率的研究一致。尽管有偏向涉及一次键变化的反应,断裂意识模型可以产生跨所有原子标记数量的预测,包括那些异环形成的预测,如图4所示。与之前为预测环断裂而开发的方法不同,这些方法不允许用户控制要断裂的环系统,断裂意识模型允许化学家通过标记机制针对特定环系统。

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 5

作者已经证明,断裂意识模型超越了基线的分子Transformer。随后作者研究了是否能为任意断裂生成有效的前体集合。在这个过程中,作者调查了断裂意识模型是否能被引导产生同一分子的替代输出,图5展示了一个例子。结果表明,断裂意识模型能够区分类似的断裂位点并产生有效的前体集合,如图5中标记为1和2的位点所示。能够任意指定断裂位点并引导模型朝向替代输出的能力为化学语言建模开辟了新的途径,有助于促进用户与模型的交互。

ACS Cent. Sci. | 用断裂提示消除逆合成语言模型的偏见

图 6

此外,断裂意识模型可以适应无人类互动的情况,例如自动或多步逆合成预测。作者展示了使用训练的模型自动标记断裂位点(称之为AutoTag),然后使用断裂意识模型进行推断,至少将预测的反应类别多样性提高了2倍(图6B)。AutoTag模型预测的标记数量大致遵循与原数据相同的分布,并继承了同类型的断裂偏见。值得注意的是,该模型倾向于预测比原数据集中表示的更大的断裂位点,如图6A所示。

编译 | 曾全晨

审稿 | 王建民

参考资料

Thakkar, A., Vaucher, A. C., Byekwaso, A., Schwaller, P., Toniato, A., & Laino, T. (2023). Unbiasing retrosynthesis language models with disconnection prompts. ACS Central Science, 9(7), 1488-1498.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy