AlphaFold2在CASP14结果会议上的突破性宣布已经过去了三年,这一时刻引发了蛋白质研究的深刻变革。
最近,我们屡屡看到蛋白质工程过程的方式发生了巨大变化。
近日,Nature Biotechnology以”聚焦蛋白质工程”( protein engineering)为主题发表了新一期刊物,发表多篇相关论文与社论。
本篇文章,多位AI蛋白质领域的大牛学者回答了关于蛋白质结构预测、蛋白质设计,以及在生物科技的实际落地,非常有启发性,值得一读。
参加讨论的蛋白质工程和设计的学术大牛们,包括:
David Baker:华盛顿大学蛋白质设计研究所所长,被誉为蛋白质设计的”上帝之手”;
Bonnie Berger:麻省理工学院的Simons数学教授,计算分子学领域的先驱;
Mohammed AlQuraishi:哥伦比亚大学的助理教授,计算生物学家;
左:David Baker;中:Bonnie Berger;右:Mohammed AlQuraishi
(小编注:为了阅读方便,人名以大写首字母表示)
关于蛋白质结构预测
当前,我们有从AlphaFold2和RoseTTAFold等工具中学到了什么关于蛋白质折叠原理的知识吗?
David Baker:深度神经网络很擅长解决复杂的问题,它对结构生物学和蛋白质设计起到了巨大的推动作用,但就基本原理而言,我们学到的东西并不多,这也是人们不太喜欢神经网络的原因之一。
Mohammed AlQuraishi:就从这些模型中提取的直接知识而言,我们没有学到太多新知识。我认为AlphaFold2可以被用于精准预测蛋白质的结构,但它不能直接帮助我们理解新的理论或模型。
这种局限性的部分原因是,作为一个机器学习模型,AlphaFold2识别了许多统计模式,但不一定能以我们容易理解的形式提取出来。
单序列深度学习方法是了解蛋白质如何折叠的一种方法吗?你认为单序列方法最有用的应用是什么?这些方法的局限性是什么?
Bonnie Berger:是的,单序列深度学习方法将是理解蛋白质折叠的下一步。自然地,蛋白质不需要知道其同源序列就可以折叠成其天然结构。目前的大多数方法都依赖于比对,因此无法预测细微的变化,如单个氨基酸突变及其对蛋白质结构和功能的影响。我相信基于蛋白质语言模型(例如ESMFold和OmegaFold)的单序列方法将克服这些限制。
DB:基本原理的问题更多地是一个深度神经网络,而不是单个序列与多个序列。我们主要研究设计的蛋白质,使用RoseTTAFold和AlphaFold,设计的蛋白质从单序列折叠得很好,因此这些方法显然能够使用单序列信息准确预测结构。我认为得出物理原理的困难在于模型有数亿个参数,而如何从这些参数的值中提取物理原理很难。
与单个序列相比,AlphaFold和RoseTTAfold在多个序列上训练的优势不仅在于它们使用协方差信息作为序列中任何物理信息的辅助信息,还在于有更多的序列数据进行训练。我认为单序列方法很难实现。
未来蛋白质结构预测主要驱动力是什么:训练数据?新的模型?更多的算力?接下来的重大步骤是什么?
BB:这三个都很关键:训练数据、基于transformer的模型架构和GPU算力。然而,下一步还有很多潜在的重大步骤或应用:(1)更先进、更准确的模型,如单序列方法;(2) 设计功能性或治疗性蛋白质,例如抗体;(3) 蛋白质相互作用系统的设计,如级联通路等。
MAQ:到目前为止,主要的驱动力是蛋白质语言模型,它学会有效地将所有已知的蛋白质序列空间压缩到神经网络模型中。如上所述,它们是有效的,但也有局限性。我认为创新将来自新的模型架构和更强大的算力,这将推动基于机器学习的蛋白质结构预测工具更加依赖于物理知识来预测结构。
DB:我认为是拥有如同蛋白质银行(PDB)的庞大数据库,科学家们不仅投入了大量时间和金钱来解决所有的蛋白质结构,还得将它们管理成一个通用格式的数据库。这个数据库至关重要,当我们开始考虑在更复杂的生物数据上训练深度学习模型时,首先遇到的事是没有太多好的数据库。
关于蛋白质设计
如何将结构预测与蛋白质设计相结合?我们如何从结构走向功能?
MAQ:可以说蛋白质的设计和结构已经整合在一起了。在我们的Genie模型中,我们从头开始训练模型只是为了设计,但我们正在探索同时解决这两个问题的架构。事实上,如果条件变量是蛋白质本身的序列,那么结构预测可以被认为是条件蛋白质设计的一种形式。
人们已经建立了从结构预测分子功能的模型,特别是如果有明确的方法来预测分子功能,例如酶。理想情况下,我们将开始将重点从靶向特定结构转移到蛋白质设计。
DB:我想说,蛋白质设计与结构预测的进展密切相关。我们已经能够采用为结构预测设计的网络,并对其进行微调以进行设计。
我们开发的RFdiffusion方法基本上是RoseTTAFold结构预测方法,但现在被用于生成新的蛋白质结构,而不是预测现有蛋白质结构的结构。它本质上是同一个模型,只是针对蛋白质设计而不是结构预测进行了微调。如何从结构到功能,这要追溯到我之前所说的,最大的限制可能是注释良好的数据库。
端到端学习的优势是什么?机器学习如何与基于物理的方法相结合?
BB:在早期,为了降低问题的复杂性,人们经常将蛋白质折叠问题分解为几个单独的步骤或子问题。尽管这使每个子问题更容易解决,但多个步骤中预测误差的累积导致结果不准确。
端到端学习通过将所有模块融合在一起克服了这一限制,并允许最终预测误差传回每个模块,从而校准这些预测误差并实现更准确的预测。这种方法已经在计算机视觉、语音识别和许多其他机器学习应用中进行了测试和验证。
DB:我认为端到端学习的最大优势是,当你有一个网络时,你可以训练它根据损失函数来做一些事情。如果你训练它做你想做的事情,也就是说,从序列到结构(在结构预测的情况下),或者从功能描述到设计的蛋白质。
MAQ:端到端学习允许机器学习模型的所有组件针对感兴趣的任务进行优化。例如,在基于MSA的结构预测器中,模型学习调整其每个参数,以便从MSA中提取尽可能多的信息,以实现结构预测的任务。
基于物理的方法面临的挑战是,虽然它们可以微分,但计算成本很高。因此,简单地将物理模拟器嵌入机器学习框架中的天真方法往往是不实用的。我认为进展将来自于确定物理先验和物理模拟在机器学习框架中有效嵌入的方式。
具有数十亿参数的机器学习模型并不罕见。如果需要越来越大的型号来实现最先进的性能,研究会局限于少数大公司吗?
DB:我认为,只有商业公司才能开发出最好的科学模型的情况很危险,因为公司有商业化的需求,可能会有动机不分享这些模型,这会造成非常危险的情况。
需要政府资金来支持这些计算成本,以便让学术界能够训练大模型。这一点非常重要,如果拥有更准确的模型意味着现在我们可以更快地取得科学进步,而且需要做更少的实验,那么即使你在计算能力上投入了很大的资金,在其他研究领域的节省也远远超过补偿。
MAQ:不幸的是,这是一个严重的问题。到目前为止,生物机器学习模型在复杂性方面已经落后于文本和视觉模型几年,这使得学术实验室和小型公司能够继续有意义地参与研究企。但正如我们在GPT等大型语言模型中看到的那样,这一领域几乎完全由大公司主导。鉴于人工智能在科学中的重要性,我希望政府和慈善组织能投入更多的资源。
BB:在自然语言或图像处理中,这可能是真的。然而,在蛋白质科学中,目前云计算的基础设施已经足够强大,可以支持在蛋白质数据上训练大型语言模型。由于用于蛋白质微调的下游数据仍然相当有限,学术界和小公司目前可以访问或有能力训练具有数十亿参数的模型。
关于药物研发
蛋白质药物在同时优化几个特性——功能、免疫原性、稳定性、翻译后修饰的添加方面有多好?
MAQ:目前不是很好,但工具正在迅速改进。当前可以根据结构或几何形状定义的特性比更具生物物理性质的特性更容易优化,因为后者需要功能数据。
DB:我认为生成模型只需要有一个损失函数,或者以满足所有这些属性的方式进行引导。目前,有很多不同的方法来指导,例如,用这些更高级别的标准来指导RFdiffusion。如何最好地做到这一点是一个非常有趣的研究领域。其中一些特性已被相对较好地理解。
我们发现的一件事是,设计的蛋白质几乎总是非常稳定的,而且很少具有很强的免疫原性。只需设计紧凑、稳定的高可溶性结构,就可以避免主要的免疫原性问题。这个问题的答案有两个部分:你如何在深度学习过程中做到有实际的体系结构,以及如何对这些属性进行编码。
在蛋白质设计的生物技术应用方面,哪些是唾手可得的成果
BB:我们目前更擅长预测与单链蛋白质结构的结合,而不是与蛋白质复合物的结合。对于设计与小分子的相互作用,具有口袋和经过充分研究的活性位点的单链蛋白将是最容易首先靶向的。新材料的结构蛋白设计也可能是最早的应用之一。
MAQ:蛋白质结合剂( Protein binders)就是其中之一。融合或消融现有蛋白质的蛋白质是另一种。这些可以具有治疗应用以及化学或工业和农业用途。
DB:现在有很多不同的应用。我们设计的新冠肺炎疫苗,已被批准在多个国家使用。未来有巨大的机会来制造更智能的治疗方法,远远超出抗体及其特异性的范围。
对于传感和诊断,有巨大的应用,不仅限于天然存在的蛋白质。除了医学,在可持续性、能源和环境问题上,分解有毒化合物、固定二氧化碳的方法以及通过人工合成光合系统捕获太阳能的新途径都有巨大的应用。最后,在技术方面,有一个非常有趣的领域,将生物学和电子技术结合起来,设计能够感知嵌入电子电路的生物分子的蛋白质。
某些蛋白质是否比其他蛋白质具有更好的靶点?为什么?
DB:对于设计蛋白质结合剂而言,该领域正在改变,因为有些我们认为非常困难的靶点现在已经变得容易了。几年前,我们在这个有趣的转变点上开发了基于物理的蛋白质粘合剂从头设计方法。然后,在我们开发这些方法一年后,我们提出了一种更好的深度学习方法——RFdiffusion,借此可以构建适合目标的结构。尽管如此,电荷非常高且没有太多可用相互作用表面的靶标仍然很难。
MAQ:这取决于应用程序。例如,对于蛋白质粘合剂,较小的结合表面和极性较小的表面更容易成为靶标。
将这些机器学习方法应用于可商业化的蛋白质(药物、材料)的设计需要什么?
BB:这些方法已经准备好应用于药物发现管道的早期阶段,例如,我们最近研究表明,用于预测药物-靶标相互作用(DTI)的语言模型与对比学习相结合,可以增强区分药物和诱饵的预测(ConPLex),深度学习方法也可以帮助预测多药物副作用干扰。
MAQ:我相信我们已经做到了。挑战最终将是从设计具有特定分子功能的蛋白质,到理解它们在人和生物体中的运作方式。出于这个原因,我预计非治疗性应用可能会更早被采用。
DB:我认为我们已经在设计可能成为药物的蛋白质方面做到了。在使用蛋白质设计深度学习方法设计小分子药物方面,有很多工作正在进行中。
—The End—
推荐阅读