J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

443次阅读
没有评论

今天为大家介绍的是来自Walters团队的一篇论文,作者提供了一种在大规模数据库中高效搜索对应需求数据的方法。

J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

过去五年里,通过虚拟筛选那些可以按需合成的超大型库来寻找新药靶点变得越来越流行。随着这些库的大小增加到数十亿种分子,虚拟筛选每一种分子的成本已经变得高昂。即便是使用云计算资源,全面筛选数十亿分子的成本也可能高达数万美元,对于更大规模的库,这种方法的成本更是高得离谱,同时还需要大量的磁盘空间来存储3D构象数据。这些挑战促使研究者寻求更经济高效的筛选策略,以应对超大型虚拟库带来的计算和财务压力。为了解决这个问题,作者团队开发了快速识别最有前景分子的启发式搜索方法,即一种叫做汤普森采样(TS)的方法。这是一种通过在原料空间进行概率性搜索来简化大型组合库虚拟筛选的主动学习技术,这样就不需要列举出库中的所有可能。汤普森采样是一种通用技巧,适用于多种虚拟筛选方式,包括二维和三维的相似性搜索、分子对接,以及应用机器学习模型。

采样方法

为了理解汤普森采样(TS)如何运作,可以将其过程想象成一系列简单的步骤:

1.预热准备:首先,从库中随机选择一小部分分子,并对这些分子执行计算昂贵的评估(如对接或相似性计算)。这个步骤旨在初步了解哪些类型的分子可能表现良好。

2.设置起点:根据准备的结果,设定一个起始的”信念分布”,这个分布就是你根据已有的少量实验数据对每种分子可能表现的猜测。

3.重复尝试:然后开始正式的筛选过程,这个过程包括以下几个循环重复的步骤:对于每次尝试,算法不会盲目地从库中随机挑分子来做实验,而是从每个分子的信念分布中随机选择一个可能表现较好的分子。随后对这个新分子进行实际的运算评分,看看它的实际表现如何。根据新分子的实际表现,更新信念分布,这样下次就能做出更好的选择。

4.记录结果:记录下所有被测试分子的分数,这样就能知道哪些尝试最有可能产生好的分子。

5.判断结束:这个过程会一直进行,直到测试了足够多的分子,或者认为已经找到了足够好的不再需要继续搜索。

6.最终决策:确定什么时候停止这个过程是基于经验和实际情况的,可能是测试了库中的所有分子,或者已经测试了库中很大一部分分子,并且觉得已经找到了足够好的选项。

通过这些步骤,能够在一个庞大的分子库中有效地搜索,找到有潜力的分子,而不需要测试库中的每一个分子,节省了时间和资源。

结果展示

如图1,为了验证汤普森采样(TS)方法在寻找化合物库中与特定目标分子相似性极高的分子的能力,作者首先使用了TS方法,并将其与穷尽性的Tanimoto相似性搜索进行了比较。他们发现,即使在迭代次数不多的情况下,TS也能找到与目标分子非常相似的分子。并且,不管是少量的预热还是较多的预热,TS都能够识别出相似的分子。在进行了足够多的迭代后(100,000次,只占整个库的0.1%),TS能够找回大部分的目标分子。为了确保这个发现是可靠的,作者进行了统计分析,比较了不同预热和迭代条件下的TS搜索结果。使用学生t检验,他们确定了不同组之间是否有显著的差异。尽管通常用0.05作为判断统计显著性的阈值,但由于他们进行了多次比较,因此使用了更严格的Bonferroni校正来调整显著性阈值。结果表明,所有的TS运行结果之间没有显著差异,这意味着TS方法的结果是稳定可靠的。

J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

图 1

为了评估汤普森采样(TS)的可重复性,作者进行了两组不同的TS运行,每组10次,共20次。在第一组中,每个试剂都与三个随机的伙伴试剂进行了采样。在第二组中,采样的伙伴试剂数量增加到了10个。根据上述研究的指导,每次TS运行使用了50,000次迭代,搜索了总库的0.05%。在图2的顶部,再次看到了前100个分子的Tanimoto系数的带状图。”concat”列显示了将10次TS运行的分数合并后选择的100个得分最高的独特分子的分数。在所有的TS运行中,观察到的得分分布与穷尽搜索中前100个的得分分布相似,如图2中右侧绿色所示。在图2的底部,TS运行始终能找到前100个分子中的88到90个。这表明,不同预热次数的TS运行在识别最相似分子方面表现出良好的一致性,并且在多次重复实验中没有显示出统计学上的显著差异,表明该方法具有较高的可重复性。即使在不同的预热条件下,TS方法也能够稳定地找到与给定查询分子高度相似的分子。

J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

图 2

为了提供汤普森采样(TS)的基线比较,作者使用了随机选择作为对照,从喹唑啉库中随机抽取了50,000个分子。作者评估了TS识别的前100个分子的数量,并将其与50,000个随机样本识别的数量进行了比较。对于TS,使用了10个预热循环,并在50,000次评估后停止搜索。通过Tanimoto相似度,TS和随机选择被重复了10次。这次比较的结果展示在图3中,采用了与上图相同的格式。顶部的带状图显示了随机选择(红色)和TS(橙色)选出的前100个分子的Tanimoto系数。右侧的绿色点代表穷尽搜索中前100个分子的得分。图3底部的条形图显示了使用TS和随机搜索找到的前100个分子的数量。在10次对比中,有9次随机搜索没有识别出任何前100名的分子。在第7次重复中,随机搜索识别出了1个前100名的分子。在这种情况下,能够看到TS和随机选择之间有显著差异。这说明TS在找到与特定查询分子最相似的分子方面明显优于随机选择方法,证实了TS方法的有效性和相对随机方法的优越性。在多次实验中,TS都能稳定地找到一个接近查询分子的分子集合,而随机方法则几乎没有识别出任何最相似的分子,显示出TS方法的可靠性和重复性。

J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

图 3

作者也探讨了TS 的缺点。在表1中,显示了在搜索中构成前100个命中分子的所有基本构建块和出现的频率。根据穷尽搜索的结果,前100个分子由5个R1、12个R2和24个R3构建块构成。TS只识别出了五个R1构建块中的一个,但这个构建块占据了前100个分子中的92个。这一结果指向了当前TS实现的一个潜在局限性:当一个构建块显著地贡献了高分时,该位置的解决方案多样性可能会受到限制。

J. Chem. Inf. Model. | 汤普森采样:一种高效搜索超大规模按需合成数据库的方法

表 1

作者又将 TS 与模型辅助的主动学习(AL)进行比较。它们在处理大规模化合物库时展现了不同的特点和效率。它们的关键对比如下:AL需要对化合物库进行完全枚举,而TS不需要,使得TS在处理大型库时计算成本更低。AL的每个周期需要对库中的所有分子进行模型预测,而TS避免了这一需求,减少了计算时间。在一个缩小的喹唑啉库的实验中,TS和AL都能识别与目标分子相似的分子,但AL在某些情况下可能识别出更多的命中分子。TS提供了一个简单且有效的选择,但需要进一步的研究来优化协议并比较不同方法的效率。总之,TS提供了一种计算上更简便、更高效的方式来筛选大型化合物库,而AL可能在模型构建和预测准确性方面提供优势。选择哪种方法取决于特定的应用需求和资源可用性。

针对三维相似性搜索,作者也进行了实验。通过使用OpenEye Scientific Software的ROCS和OEShape Toolkit,对一个基于喹唑啉合成反应构建的大型化合物库进行了搜索。这个库包含了大约2.34亿个反应产品。选择库中的一个分子作为查询目标,进行了穷尽性搜索和TS方法的比较。在穷尽性搜索中,需要超过12.5 CPU年来完成对整个库的ROCS搜索,而使用TS搜索同一库的0.1%每次运行仅需32 CPU小时。通过10次TS运行,作者合并了每次运行的前100个独特分子,评估了TS在识别与查询分子高度相似的分子方面的效能。结果显示,即使只评估了库的0.1%,TS能够识别出前100个最佳分子中的54到69个。这表明TS在进行3D相似性搜索时具有一定的效率和效果,尽管与穷尽性搜索相比,其性能略有下降。此外,对TS运行与穷尽搜索之间的成对比较没有发现统计学上的显著差异,表明TS是一种可行的替代方法,用于在计算资源有限的情况下快速筛选大型化合物库。

结论

汤普森采样(TS)为搜索那些通过日益增多的按需合成化学技术变得普遍的超大型组合库提供了一种高效的手段。这种高度灵活的方法可以应用于各种目标,包括2D和3D相似性搜索以及蛋白质-配体对接。其速度与准确性的完美结合也使 TS 成为虚拟筛选工具箱中的又一极佳选择。

编译 | 曾全晨

审稿 | 王建民

参考资料

Klarich, K., Goldman, B., Kramer, T., Riley, P., & Walters, W. P. (2024). Thompson Sampling─ An Efficient Method for Searching Ultralarge Synthesis on Demand Databases. Journal of Chemical Information and Modeling.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy