Nat Comput Sci. | 预测特定有机分子光谱的深度学习模型

508次阅读
没有评论

今天为大家介绍的是来自Yujin Zhang,Jun Jiang,Yi Luo和Wei Hu团队的一篇论文。论文介绍了一个用于预测分子光谱的深度学习模型“DetaNet”。准确高效的分子光谱模拟对物质发现和结构鉴定至关重要。然而,传统的依赖量子化学的方法成本高,效率低。为了解决这个问题,研究者们开发了DetaNet模型,它能够以更高的效率和准确性预测分子光谱。

Nat Comput Sci. | 预测特定有机分子光谱的深度学习模型

分子光谱学是一种用于分析分子电子或振动特性的技术,广泛应用于物理、化学、生物学等多个科学领域。这项技术通过捕捉分子的特定“指纹”来帮助科学家识别和研究物质。在这个过程中,能够快速而准确地理论上预测分子结构是非常关键的。目前,量子化学模拟是实现这种预测的主要方法,但它需要对大量分子进行复杂的电子结构计算,这使得它既昂贵又耗时。因此,科学家们一直在寻找一种更有效、成本更低的方法来精确预测分子光谱。

深度学习技术在预测分子属性方面展现出了巨大的潜力。这些方法通过学习大量的数据,可以在不进行繁琐的电子结构计算的情况下预测分子的结构、属性和光谱关系。例如,已经有研究利用多层感知器和卷积神经网络来预测分子的电子激发光谱。还有研究通过机器学习协议,使用结构描述符来快速预测蛋白质的不同光谱特性。此外,还有基于机器学习的框架被用来研究分子的电子状态属性,以及深度学习方法被应用于研究复杂的光谱变化,如在交联聚乙烯管中发生的变化。这些进展显示了深度学习在快速且准确预测分子光谱方面的巨大潜力。

在此文中,作者开发了一种基于E(3)-等变信息传递神经网络(MPNN)框架的深度神经网络(DetaNet),旨在描述那些对旋转、平移和反射具有不变性和等变性的分子属性。DetaNet通过在原子间传递更高阶的张量信息,利用结构特征快速而准确地预测各种分子属性。这些属性包括标量属性、向量属性、二阶张量属性以及三阶张量属性。基于这些功能,DetaNet还包括用于预测红外吸收、拉曼散射、紫外-可见吸收等功能模块。该网络使用包含130,000种有机分子的广泛应用的QM9数据集进行训练和验证。DetaNet在预测紫外-可见光谱方面达到了高达92%的准确率,而在红外、拉曼和NMR光谱预测方面的准确率超过99%。重要的是,与传统的使用密度泛函理论(DFT)的量子化学方法相比,这种方法在光谱预测效率上提高了三到五个数量级。此外,DetaNet的结果还表明它具有良好的可迁移性,能够应对不同大小的分子以及不同环境条件(如电场、溶剂和表面吸附)的影响,这进一步扩展了DetaNet在各种光谱实时应用的可能性。

实验部分

Nat Comput Sci. | 预测特定有机分子光谱的深度学习模型

图 1

预测分子的振动光谱:在这一部分研究中,作者将DetaNet的精确等变属性预测能力与谐振子近似相结合,开发了方法来预测分子的振动光谱。在深度学习中训练和预测Hessian矩阵是一项挑战,因为在现有框架中计算二阶交叉偏导数在计算上非常昂贵。尽管以前有一些研究通过训练原子力来预测Hessian矩阵,但准确度不高且成本较高。因此,作者提出了一种计算Hessian矩阵的算法。如图1a所示,Hessian矩阵被分为原子张量Hi和原子间张量Hij,分别进行训练和预测。图1b比较了DetaNet对Hessian矩阵的预测与密度泛函理论(DFT)计算的结果。DetaNet的Hessian矩阵值预测值达到了99.94%的准确度。如图1c,d所示,DetaNet预测的偶极矩和偏振率的导数与DFT参考数据非常吻合。以环己酮、2-甲基吡嗪(评估集中的样本)和咖啡因(QM9S数据集中的样本)为例(见图1e),作者测试了DetaNet计算它们红外和拉曼光谱的性能。如图1f,g所示,DetaNet预测的红外和拉曼光谱与DFT计算结果几乎一致,并且与实验光谱非常吻合。

Nat Comput Sci. | 预测特定有机分子光谱的深度学习模型

图 2

紫外-可见(UV-Vis)和核磁共振(NMR)光谱的模拟:对于UV-Vis光谱,标准的模拟算法需要估计吸收能量和跃迁偶极矩。DetaNet在预测吸收能量方面表现良好,但在振子强度的预测方面表现不佳,因为其仅基于基态结构。因此,作者采用了另一种方法直接预测1.5-13.5 eV(92-827 nm)范围内的广泛UV-Vis光谱。如图2e所示,五种代表性分子(环己酮、2-甲基吡嗪、庚-3,5-二炔-2-酮、苯胺和5-甲氧基-1,3-噁唑-2-羰基醛;结构见图2d)的DetaNet预测UV-Vis光谱与DFT结果几乎一致。此外,与DFT结果相比,DetaNet预测的吸收强度的平均绝对误差(MAE)小于0.012原子单位,R2大约为92.04%(见图2a),这证明了DetaNet在模拟UV-Vis光谱方面的准确性。对于NMR光谱,DetaNet预测了氢、碳、氮和氧原子的各向同性磁屏蔽张量和相应的化学位移值。如图2f,g所示,五种代表性分子的DetaNet预测的13C和1H NMR光谱与DFT参考数据非常接近。图2c展示了100,000个具有八种不同氢环境的氢原子形成的紧密且清晰分离的簇,这表明DetaNet能够准确地模拟化学环境,从而精确预测NMR光谱。

效率评估:使用CPU设备时,DetaNet预测振动光谱、紫外-可见光谱和核磁共振光谱的平均时间分别为0.98秒、0.020秒和0.029秒;相比之下,传统的密度泛函理论(DFT,使用Gaussian 16 B.01)计算这些光谱的时间大约慢了103、105和104倍。当使用GPU时,DetaNet的效率进一步提高。此外,DetaNet采用的批量预测策略大大加快了模拟效率。例如,在CPU和GPU设备上,批量模拟16个振动光谱的平均时间分别为0.23秒和0.059秒,这些时间比单个分子的模拟时间快了四倍和八倍。而且,DetaNet所需的时间仅与分子中所含原子数量成线性比例。相比之下,传统DFT计算的计算成本与电子数量呈三次方比例增长。因此,与DFT计算相比,DetaNet在模拟大分子光谱时具有显著优势。

编译 | 曾全晨

审稿 | 王建民

参考资料

Zou, Z., Zhang, Y., Liang, L. et al. A deep learning model for predicting selected organic molecular spectra. Nat Comput Sci 3, 957–964 (2023). 

https://doi.org/10.1038/s43588-023-00550-y

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy