今天为大家介绍的是来自Raffaele Santagati团队的一篇论文。量子计算机在工业应用中的潜力很大程度上依赖于它们执行精确、高效量子化学计算的预期能力。计算机辅助药物发现依赖于精确预测候选药物在含有数千个原子、特定温度条件下的细胞环境中的目标相互作用。作者在这里探讨了将量子计算机应用于药物设计中的挑战与机遇。
自20世纪50年代以来,制药行业的药物开发成本已从数千万美元增长到数十亿美元。为了在满足未得到解决的医疗需求方面持续进步,寻找提高药物开发方法论的每一个可能的改进源头都是至关重要的。作为这一策略的一部分,计算方法在研究和开发中扮演的角色越来越大。使用的方法包括从经典分子动力学到量子力学计算的模拟技术,但也包括更一般的工具如机器学习。然而,预测化学系统的行为,特别是量子力学效应,可能会非常消耗计算资源,许多这些方法缺乏实际应用所需的速度和准确性。人们提出量子计算机可以通过利用其量子力学属性有效地模拟量子系统。这是量子优势的一个例子,即量子计算机预期能超越其经典对手的能力。受到这一承诺的启发,近年来量子计算研究蓬勃发展,量子硬件和算法都取得了实质性的改进。这些近期的发展吸引了私营和公共部门的投资,通常目标是寻找实际应用。其中最常被引用的投资理由之一是应用量子计算机来增强量子化学计算。
量子计算的现状
图 1
图 2
在过去的十年中,量子计算领域见证了迅速的发展。然而,实现具有实际量子优势的设备——即产生超越经典计算机能力的工业结果——仍需要在硬件和算法设计方面取得重大进展。量子算法通常以门操作的组合形式表示,这些门操作组合成电路(图1)。开发量子算法的最重要指标是计算成本的估算(图2)。这些估算定义了解决感兴趣问题所需的量子计算资源(量子位和运行时间)。运行时间长、涉及许多连续量子门的算法被认为具有高电路深度。分析解决问题所需的电路大小和深度为量子硬件提供了具体的工程目标,并阐明了哪些算法方面需要改进。
目前可用的唯一量子计算硬件处于所谓的噪声中等规模量子(NISQ)阶段,因其噪声特性和有限的量子位数量而得名。噪声的存在在尝试的计算中引入错误,限制了可以实现的大小和规模。大多数NISQ算法——例如,变分量子本征求解器——严重依赖于经典优化启发式方法,实际运行时间(计算完成所需的时间)难以估计。此外,最近的结果表明,在NISQ方法中,实现给定错误所需的测量次数与电路的深度呈指数级增长。因此作者讨论专注于容错量子计算机。这些利用量子错误纠正技术产生对噪声具有鲁棒性的逻辑量子位,但需要大量额外的量子位和运行时间。例如,模拟一个经典上具有挑战性的分子,如在氮固定中发挥关键作用的铁-钼复合体FeMoco,估计需要大约2000个逻辑量子位,这将通过四百万个物理量子位实现。这远远超出了当前量子硬件的能力。
量子计算机预期能够解决电子结构问题,并为所有经典方法无法处理的强相关系统找到基态能量。然而,识别这些系统可能非常要求高和耗时,并且严重依赖于化学专业知识。在过去20年中,已经开发了多种技术来研究各种从头算方法何时失败,并提供了强相关的指标。许多这样的问题出现在多金属系统中,这些系统中多个金属离子处于相似的电子环境和相互作用中。这在一些生物系统中出现,但目前尚不清楚它们有多常见,或者准确描述系统所增加的价值是什么。目前已经理论证明,如果提供一个接近基态的初始状态,量子计算机可以在多项式时间内解决电子结构问题。该方法使用量子相位估计(QPE)来找到哈密顿量的本征态和本征值,这是许多量子计算方法的核心。图1展示了在量子计算机上进行电子结构计算的工作流程。首先使用经典计算机细化化学系统的几何形状,识别系统的一个好的初始状态,并合成在量子设备上运行的错误校正电路。量子计算从在量子计算机内准备经典确定的初始状态开始。工作流程的下一步是将QPE应用于初始状态以获得基态及其能量。估算正确基态能量的成本直接依赖于初始状态与基态的重叠。随着与正确基态的重叠减少,成本逐渐增加。对这个工作流程的修改允许计算其他可观测量,例如分子力。
在容错设备上实现抽象量子算法通常以技术层次堆栈的形式描述(图2a)。在这个堆栈的底部是硬件——物理量子位和门。在这个层面,门是通过直接控制物理量子位来实现的。在第二层,通过量子错误纠正代码检测和纠正错误,这些代码在多个物理量子位中编码量子信息。这些结构允许实现量子逻辑门,可以组合在一起形成量子算法子程序的核心电路。在图2b中,作者报告了设计算法并将其编译成量子电路所需的一些主要步骤。选择算法时的一个关键考虑是其规模,特别是与经典计算机的性能相比。如果所需的计算资源(运行时间和物理量子位数量)与问题的大小成多项式规模增长,则认为算法是高效的。如果对于特定问题,量子计算成本是多项式的,但最好的经典计算机算法等价是指数的,我们称之为指数级量子优势。当存在这样的优势时,人们相信量子计算机能解决对于经典方法来说过于庞大的问题,即使考虑到构建和操作量子设备的额外开销。尽管容错量子算法尚不能执行,但存在许多方法来评估它们的计算成本。例如,估算FeMoco辅因子的基态能量的任务已经被密集研究。对于这个系统,通过算法改进,运行时间估计已从数年减少到数天。随着算法和硬件的进步,将成为可能执行此类计算。然而,鉴于多种技术竞争开发大规模量子计算机,每种技术都有自己的限制,预测首次容错计算何时可行是困难的。
计算机辅助药物发现
图 3
制药行业生产的化学化合物是一个漫长的发现和精炼过程的结果。主要步骤在图3a中总结。药物发现过程开始于识别与疾病病理学有关的目标蛋白。假设药理学上调节这一目标对治疗疾病有益,这一过程通过一个分子与目标的结合来实现。最初过程从10的60次方个潜在分子中筛选出数百万个化合物。随后许多不同的性质,如结合亲和力,需要被优化。因此,在所谓的命中到先导和先导优化程序中,在识别出适合进入临床开发下一步的候选物之前,需要合成数千个分子。每个合成的分子都要经过体外的生化、生物物理和细胞测试。然后,具有良好性质的最佳候选物通过体内(在生物体内)实验进行评估。目标是以尽可能少的优化周期获得临床候选物。在药物发现的这一阶段,计算方法可以提供见解并帮助指导合适分子的设计。
今天在药物设计中大量使用计算化学的有两个主要领域。第一个是使用电子结构方法计算化合物与目标的结合强度或结合亲和力,这是药物候选物最重要的性质之一。第二个是药代动力学性质的预测,这决定了化合物如何被吸收、分布、代谢等。这些后者的计算通常使用机器学习模型,这些模型基于从制药公司早期项目获得的大型实验数据库进行训练。如上所述,目前量子机器学习的前景尚不清楚。虽然增强药代动力学性质预测方法对药物设计很重要,但这有一套非常不同的挑战及问题需要克服,而且需要单独进行广泛的讨论。因此,作者在这里专注于结合亲和力的计算。
结合亲和力等同于药物与目标之间的结合自由能。它直接对应于目标处所需的药物浓度,从而决定了药物的效力。这转化为预计的治疗人类或动物剂量,这是药物设计过程中最重要的参数。同样,药物不应干扰必要的生物过程,且不应与特定的“反靶点”位点结合。确定与反靶点的结合亲和力可以提供药物候选物潜在副作用的洞见。因此,化合物优化过程中结合力的计算必须精确。不幸的是,基于经典力场的分子动力学模拟的最新方法无法可靠预测结合强度。与经典力场不同,基于量子力学的密度泛函理论(DFT)或耦合簇方法可以提供更好的分子相互作用描述,但计算成本要高得多。此外其他的困难来自于化合物性质的热力学特性。例如,一个分子可以以许多不同的方式与蛋白质结合,热波动意味着系统可以访问不同的几何结构和结合途径。有效的算法必须有能力计算许多不同参数下的状况,因此需要进行许多单点计算(图3b)。当筛选具有相似化学结构的许多化合物时,直接计算化合物之间结合亲和力的差异,而不是完全计算每个化合物然后比较它们,通常会更快。这项任务通常通过所谓的炼金术扰动方法完成,它调整电子结构,将一个已知化合物逐渐变形为一个新化合物。然后根据差异计算相关的热力学性质。这种整体性质的计算经常需要实现药物-靶标复合物的自然时间演化。
完整描述一个药物与其目标相互作用涉及数千个原子。自由能计算需要数十亿个单点计算,在其中进行能量和力的评估(图3B)。此外模型中必须包含显式溶剂(水)的必要性会直接显著增加自由度和复杂性,通常使运行时间变得不切实际。使用力场方法,在经典计算机上计算小分子与其目标蛋白的结合自由能可能需要许多小时。通过包括量子效应的模拟,例如通过引入DFT方法,会将计算成本增加几个数量级,使得完整的DFT处理用于自由能计算变得代价及其昂贵。更高精度的方法,例如耦合簇技术,需要更多的计算资源,因此完全超出适用范围,只能应用于小系统。
为了克服这些限制,目前研究人员采用了多尺度方法来连接原子尺度到细胞尺度。为了准确描述分子机制,使用量子力学/分子力学(QM/MM)方法,在这些方法中,只有催化中心或感兴趣区域使用更精确的技术表示,而周围区域则使用成本效益高的分子力学(MM)方法(如力场)模拟。尽管在QM和MM区域之间定义边界条件存在挑战,但这些方法是研究大系统最有前景的方法。
量子电子结构计算在药物开发中的其他潜在用途包括优化药物合成的反应条件以及计算分子光谱,如核磁共振(NMR)、红外(IR)或振动圆二色性(VCD)光谱以识别结构。然而,药物合成成本通常不是药物市场价格的主要驱动因素。相反,这些价格是由许多失败的优化项目和临床试验推动的。此外,对于NMR光谱的预测,低精度方法在许多情况下已被证明能够取得良好结果。总的来说,在药物设计中的量子力学计算最能从DFT和耦合簇方法的加速方法中受益。目前,这些方法对于大多数相关系统提供了良好的准确性,但对于药物开发的广泛应用来说太慢了。这是因为大多数口服药物是需要穿过肠壁吸收的小型闭壳层有机分子。这些分子通常缺乏强相关性,并且由于它们是有一般元素组成,低精度方法处理效果就不错。
机遇与挑战
量子化学在药物设计中目前的局限性要么来自于在相关系统中缺乏准确性,要么是因为包含了量子效应的可访问方法对分子集合的计算成本。尽管有希望的想法开始浮现,但量子计算机并不立即为这些限制提供解决办法。目前,人们期望量子计算机能够加速已知量子算法(如量子相位估计)对强相关系统的电子结构计算。例如,这可以用来更好地理解酶的物理学,如细胞色素P450,这对药物代谢很重要。然而,如果能够超越计算强相关系统的单点能量,进而了解热力学性质,将会产生最大的影响。即使在硬件和算法设计方面经过30年的巨大改进之后,为了使量子计算对药物发现实用,仍需要更多的进展。早期的容错量子计算机可能无法运行有用的计算,除非算法的设计和实现可以被大幅提高效率。量子错误纠正是执行容错量子算法在空间和时间上的主要开销来源之一。错误纠正需要每个逻辑量子位数千个物理量子位,这导致计算P450的基态能量需要数百万个量子位。为了减少这些开销,不仅需要开发具有更低错误率和增加量子位连接性的更好硬件,还应探索量子错误纠正的进一步改进。
目前算法方面的一个核心挑战是在量子计算机上准备一个足够接近目标本征态的初始状态。这一点至关重要,因为QPE(找到目标本征态的算法)的运行时间直接依赖于初始状态和本征态之间的重叠。随着研究系统大小的增加,希尔伯特空间呈指数增长,准备非常接近目标本征态的初始状态变得更加困难。尽管通过算法改进随时间减少了运行时间,但初始状态和目标状态之间的依赖性无法避免。目前研究人员已经提出了几种启发式解决方案,但需要进一步研究才能完全理解问题的程度。对于非强相关系统,一个潜在的解决方案依赖于将系统分解成更小的子系统,并对这些子系统应用一系列QPE以保持整体重叠。
另一个关键的研究方向是通过解决计算规模或寻找特定问题的解决方案(如寻找系统哈密顿量的更紧凑表示)来降低总体计算成本,这直接影响量子算法的运行时间。同时,类似于经典算法,应该有可能基于启发式方法找到针对特定情况的量子算法,这些算法的扩展性比通用算法要好得多。然而,缺乏经过错误校正的量子计算机阻碍了对启发式方法的基准测试。找到分析这些启发式方法在特定问题上的计算成本的方法将有助于理解它们在药物设计中的适用性。
当前的量子算法专注于以最高精度提供加速,这并不总是与工业应用相关。与近似经典方法相比,运行时间的显著改进将在中期产生更大的影响。然而,在量子计算机上加速近似技术似乎相当具有挑战性。例如,已经有能够随系统大小线性扩展的密度泛函理论(DFT)实现,这使得量子计算机超越它们的性能极为困难。相反,量子计算机可以提供对系统物理的新见解,从而改进经典方法。例如,可以使用量子计算来设计更好的DFT泛函。或者,可能可行的是使用量子计算机加速经典计算中的张量网络收缩,或者在量子计算机上实现耦合簇技术,这可以在优化阶段实现二次速度提升。
最近的结果还表明,量子计算机可以在模拟电子动力学方面超越经典的平均场方法。未来,可以探索在精度和成本之间权衡的其他途径,例如,通过调整哈密顿量模拟的数值精度或截断哈密顿量中的信息量。尽管单点计算可以提供对系统物理的见解,但我们通常需要数十亿次单点计算来确定感兴趣的热力学量。这么多计算,每个量子计算的运行时间大约为几天,使得在合理的时间内获得结果变得不可能。通过同时在量子计算机上同时模拟经典核和量子力学电子,可能会提供一条更实际计算热力学量的途径。
编译 | 曾全晨
审稿 | 王建民
参考资料
Santagati, R., Aspuru-Guzik, A., Babbush, R. et al. Drug design on quantum computers. Nat. Phys. (2024).
https://doi.org/10.1038/s41567-024-02411-5