Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction
解决问题:本文旨在解决分子属性预测任务中深度学习模型所面临的数据有限和模型规模、超参数敏感等问题,并提出了一个新的自动机器学习工具——Uni-QSAR。
关键思路:Uni-QSAR结合了1D顺序令牌、2D拓扑图和3D构象的分子表示学习(MRL)与预训练模型,利用大规模未标记数据的丰富表示。在设计的并行工作流下,Uni-QSAR在TDC基准测试的21/22个任务中优于SOTA,平均性能提高了6.09%,而无需任何手动微调或模型选择。
其他亮点:实验结果表明,Uni-QSAR在药物发现领域具有实际应用价值。此外,本文还提到Uni-QSAR的自动化程度高,无需人工干预,且具有良好的可扩展性。但是,本文并未提到开源代码。
关于作者:本文的主要作者包括Zhifeng Gao、Xiaohong Ji、Guojiang Zhao、Hongshuai Wang、Hang Zheng、Guolin Ke和Linfeng Zhang。他们分别来自中国科学院计算技术研究所和北京大学。他们之前的代表作包括:《GraphDTA: Predicting Drug-Target Binding Affinity with Graph Neural Networks》和《MolBERT: A Pre-trained Language Model for Molecule Generation》等。
相关研究:与本文相关的其他研究包括:《DeepDTA: deep drug–target binding affinity prediction》(Ming et al., 2018)和《A graph-convolutional neural network model for the prediction of chemical reactivity》(Kearnes et al., 2016)等。
论文摘要:Uni-QSAR:一种分子性质预测的自动机器学习工具
高志峰,季晓红,赵国江,王宏帅,郑航,柯国林,张林峰
最近,基于深度学习的定量构效关系(QSAR)模型在药物发现领域的性质预测任务中表现出超越传统方法的性能。然而,大多数基于深度学习的QSAR模型受限于有限的标记数据以达到更好的性能,并且对模型规模和超参数非常敏感。在本文中,我们提出了Uni-QSAR,一种用于分子性质预测任务的强大的自动机器学习工具。Uni-QSAR将1D序列标记、2D拓扑图和3D构象的分子表示学习(MRL)与预训练模型相结合,利用大规模未标记数据的丰富表示。在设计的并行工作流下,Uni-QSAR在Therapeutic Data Commons(TDC)基准测试的22个任务中,无需任何手动微调或模型选择,表现优于SOTA,平均性能提高了6.09%。此外,我们展示了Uni-QSAR在药物发现领域的实际用途。