AlphaFold的技术进展距离解决药物发现的核心问题还有多远

608次阅读
没有评论

自发布以来,AlphaFold2在蛋白质结构预测方面已经取得了相当大的成功,引发了广泛关注。

然而,关于AlphaFold等蛋白质结构预测工具对于药物发现的实际意义还存在广泛争论。如何利用AlphaFold为药物发现提供更多帮助?AlphaFold在哪些药物发现问题上表现更好,在哪些方面还有待提高?

为此,智药邦采访了复旦大学复杂体系多尺度研究院马剑鹏教授,请他解读一些该领域的关键问题。

AlphaFold的技术进展距离解决药物发现的核心问题还有多远

复旦大学复杂体系多尺度研究院院长马剑鹏教授

一、蛋白质结构测定的挑战

问:马院长您好!非常高兴您能接受我们的专访!首先,能否给大家介绍下,蛋白质结构测定目前存在哪些主要挑战?

答:蛋白质结构测定是生物学和生物医药研究中的一个重要领域。

虽然X射线晶体学、核磁共振(NMR)和冷冻电镜(Cryo-EM)等技术对很多蛋白质来说,已经能够提供相对高分辨率的结构图像。

但由于蛋白质结构在水溶液中不是静态的,它们可以呈现多种构象,并且在与其他分子相互作用时发生结构变化,捕捉和理解这些动态变化对于揭示蛋白质的功能至关重要,然而技术上仍然具有很大难度,从而很大程度上限制了结构解析的准确率。

即便是刚性度比较大的蛋白质,想要获取其高精度的结构图像,现有的实验手段也存在较大误差。

而且对于某些蛋白质,特别是那些难以形成稳定晶体、尺寸过大或过小以及不能形成稳定结构的蛋白质等,仍然难以获取高质量的结构。

二、蛋白质结构测定技术进展

问:X射线晶体学、核磁共振和低温电子显微镜是蛋白质结构测定的三大实验方法,他们各自有哪些优缺点、以及新进展?

答:X射线晶体学、核磁共振(NMR)和冷冻电子显微镜(Cryo-EM)是蛋白质结构测定的三大主流技术,各具特色。

X射线晶体学能提供原子级别高分辨率的结构信息,但它的主要限制是需要蛋白质能形成合适的晶体,而形成晶体对很多体系是很难实现的,且该方法一般只能提供静态的结构快照。近年来,自由电子激光技术的发展对X射线晶体学提供了新的发展思路。

核磁共振(NMR)则在研究蛋白质的动态结构和柔性区域方面具有独特优势,不受晶体化限制,但它在处理大型蛋白质复合物时的分辨率有所限制。高场超导磁体和新型探测器的发展正在改善这些局限。

冷冻电子显微镜(Cryo-EM)近年来凭借其在处理大型蛋白质复合物方面的优势以及无需晶体的特点迅速崛起,尽管其分辨率通常不如X射线晶体学,但技术的快速进步,特别是在显微镜和探测器技术以及数据处理算法方面的改进,正逐步弥补这一差距。

问:基于AI的方法如AlphaFold,主要从哪些方面弥补了传统实验方法在测定蛋白质结构中的不足?

答:人工智能机器学习技术的引入正在加速蛋白质结构预测的速度和准确性,开启了结构生物学研究的新篇章。AlphaFold在很多方面弥补了传统实验方法在测定蛋白质结构中的不足,可以在短时间内预测蛋白质的结构,大大降低了时间和经济成本。

对于一些难以通过传统方法获得结构的蛋白质,例如难以形成稳定晶体的蛋白质或某些大型膜蛋白,AI方法能够提供解决方案,它们不依赖于蛋白质的物理样品,因此能够绕过传统方法的一些限制。

随着技术的发展,尤其是深度学习在蛋白质结构预测中的应用,AI方法在精度上取得了显著的进步。例如,AlphaFold2在2020年的Critical Assessment of Structure Prediction (CASP) 竞赛中展示了前所未有的高精度预测能力。AI方法可以作为传统实验方法的辅助工具,通过预测结果指导实验设计

AlphaFold的技术进展距离解决药物发现的核心问题还有多远

蛋白质的结构预测

图片来源 Nature 596, 583–589 (2021) 

尽管AI方法在蛋白质结构预测方面取得了显著成果,但它们也有局限性,比如它对于序列同源性较高的蛋白其侧链建模精度依然存在较大误差,对序列同源性低的蛋白总体预测精度依然不高,所以,从某种意义上讲,目前的AF2预测方法有点像一个深度增强版的同源建模技术。

这里需要特别强调蛋白质侧链建模精度是蛋白质结构预测研究领域的核心,所有蛋白质结构建模问题的精确度,如蛋白质折叠、蛋白质-蛋白质相互作用、蛋白质-配体相互作用、氨基酸突变、蛋白质进化等,归根结底,都与侧链建模的准确性有关。此外,对于极端复杂的蛋白质、动态结构或是蛋白质复合体的预测等,AF2也存在局限性。

值得注意的是,在面向生物制药等实际应用领域,AF2等预测手段和传统实验方法往往是互补的,其并不能取代实验结果,因为药物设计是一项十分精细的技术,很小的结构误差可能会导致巨大的偏差,而二者的结合才可以更全面地解决蛋白质结构测定的挑战。

问:蛋白质的翻译后修饰,会引起蛋白质的结构变化。那么,目前AlphaFold在结构预测过程中,多大程度上考虑到了蛋白质的修饰、辅助因子信息、以及蛋白质与环境的相互作用问题?还有哪些影响蛋白质结构的因素需要充分考虑?

答:AlphaFold等基于AI的蛋白质结构预测工具在预测过程中主要依赖于蛋白质的氨基酸序列,并利用深度学习技术来预测蛋白质在三维空间中的结构。在处理翻译后修饰、辅助因子信息以及蛋白质与环境相互作用等因素时,仍存在一定的限制和挑战。

磷酸化、糖基化、泛素化等可以显著改变蛋白质的结构和功能,AlphaFold等工具通常不直接考虑这些修饰对结构的影响,因为这些信息不是直接从氨基酸序列中获得的,虽然AF2在预测基本蛋白质折叠结构方面非常有效,但可能无法准确捕捉到由PTMs引起的结构变化。

许多蛋白质需要与金属离子、小分子配体或其他蛋白质相结合才能正确折叠或发挥功能。当前的AI模型可能无法完全考虑到这些因子如何影响蛋白质的最终结构,尤其是在这些因子对蛋白质结构至关重要的情况下。并且蛋白质通常不是孤立存在的,它们会与其他蛋白质或生物分子形成复合体。蛋白质间的相互作用可能导致结构上的显著变化。大多数AI模型在预测时默认在标准或理想化的条件下,可能无法精确预测在非标准条件下的蛋白质结构。

需要充分考虑其他影响因素,比如动态性和多态性、序列变异和突变、系统级的相互作用等。

问:2023年10月31日, DeepMind团队宣布,在预测蛋白质折叠之外,AlphaFold可以对配体、蛋白质、核酸和翻译后修饰进行高度精确的结构预测。是否可以说,这是AlphaFold性能的巨大飞跃?

答:虽然DeepMind团队宣布了该项成果,但并没有解释算法细节,也没有公开源代码,作为一项科研成果,在未经同行评议的前提下,目前还无法判断该成果的重要性。

DeepMind的成果参见DeepMind|下一代AlphaFold模型性能的巨大飞跃

问:能否以您最新发表在Nature Methods上的文章为例,来介绍下,如何用更好的算法开发,来提升蛋白质结构冷冻电镜解析的分辨率?

答:蛋白质是处于不断的大规模运动中的。常用的数据分析方法通常只会将蛋白质的静态结构表示出来。由此很多运动较大的部分常会表现得很模糊。但是OPUS-DSD方法可以表示出蛋白质的多种动态结构。正因为OPUS-DSD方法可以将不同结构拆分开来,也使得其能更清楚地重构出数据中存在的结构分布。由于蛋白质结构组成的复杂性和柔性,其实验数据也常表现出相当的复杂度。算法开发可以帮助我们从实验数据中提取更丰富的信息,提升实验结果,从更多维的角度理解蛋白质分子结构。这一新方法能有效建立高精度的生物大分子结构模型,助解决药物设计中因目标蛋白结构不准而导致的新药研发失败问题。

生物大分子结构解析是基础生物科学的关键技术之一,冷冻电镜是其中非常重要的一种研究手段。目前,中国具有世界上最大的冷冻电镜设备集群,然而大部分数据处理所需的软件仍依赖进口。要确立高精度结构模型,就必须发展自主、先进的冷冻电镜数据处理智能算法,从而为我国生命科学研究揭示分子生物学底层机理、重大疾病原理以及进行创新药物研发打下坚实基础。

AlphaFold的技术进展距离解决药物发现的核心问题还有多远

2023年10月9日,Nature Methods刊发了由马剑鹏教授领衔的科研团队开发的新型计算方法OPUS-DSD 

图中显示了OPUS-DSD重构结构模型与传统冷冻电镜软件解析的模型对比。在虚线标示的区域中,OPUS-DSD重构的模型(绿色)比传统冷冻电镜软件解析的模型(紫红色)有更加完整的电子密度。这是因为OPUS-DSD能分开重构不同三维构象,而不会将其重叠在同一个三维模型中。

生物大分子的许多重要功能是通过其高度的柔性特质来完成的,但柔性也是负面影响结构测定精度的主要因素。在处理冷冻电镜数据的过程中,生物大分子结构柔性引起的构象多样性使得从单个样本中获取精确的三维模型充满挑战。同时,由于冷冻电镜实验数据的信噪比通常极低,为深度学习算法的在该领域的运用带来了巨大困难。如何克服冷冻电镜数据中生物大分子结构的柔性、尤其是超大型复合物的柔性对结构测定精度带来的误差,是当前全球结构生物学研究的重点和难点,也是亟待打破的“瓶颈”。

我们最新开发的智能算法,成功地攻克了以上难题。研究团队推出了一种基于深度学习的计算方法,可有效地识别和处理生物大分子的柔性信息,从而提高冷冻电镜的解析能力,并获取三维结构的动态变化信息。

三、AlphaFold在药物发现中的应用

问:AlphaFold的技术突破,与药物发现的哪些关键问题密切相关?

答:AlphaFold通过预测蛋白质的三维结构,可以帮助研究者理解未知或未被充分研究蛋白质的功能,发现新的药物作用靶点或验证现有的靶点。

虽然AlphaFold已经可以较为精确的预测高同源性靶点蛋白的三级结构,然而目前AlphaFold无法考虑到靶点蛋白的周围环境信息,如结合配体等,而该信息对药物设计极其重要。此外,靶点蛋白与药物的结合是一个动态过程,蛋白的结构会随着该过程的进行而发生一定变化,而对该变化的模拟也是AlphaFold所欠缺的。

问:AlphaFold所能预测到的,很大程度上是它认为最可能出现在PDB中的结构。AlphaFold还不能区分一个蛋白质的活性和非活性状态。那么,在基于结构的药物设计中,药物化学家使用这些预测结构应该注意什么?

答:在使用AlphaFold等AI工具预测的蛋白质结构进行基于结构的药物设计时,药物化学家应当注意验证和参考实验数据,对于重要靶点,优先考虑已有实验结构或使用实验方法进一步验证关键部分的结构。要考虑蛋白质的动态性和多态性,蛋白质不是静态的,它们可以在多种稳定或亚稳定的构象之间转换。理解和考虑这种动态性对于识别药物分子的结合位点、改善药物分子的亲和力和选择性等都至关重要。在缺乏实验验证的情况下,应谨慎对待预测结构的细节,避免过度解释可能的误差或不确定性。此外,在设计药物时应避免过度优化对预测模型特定细节的配合,以免造成“过拟合”,结合使用多种预测工具和实验技术,例如可以将AlphaFold预测的结构与实验数据、其他预测模型的结果等结合起来,以获得更准确的蛋白质三维结构。

最终,所有基于预测结构的设计都需要通过生物学实验进行验证,包括靶标的结合亲和力测试、细胞活性测试、动物模型研究等,以确保预测结构的实用性和药物分子的有效性。

问:药物研发人员非常关注蛋白质的特定区域,比如活性位点,那么,AlphaFold在预测蛋白质活性位点方面的进展如何?

答:AlphaFold主要预测蛋白质的整体三维结构,而活性位点通常是蛋白质上的特定小区域,负责与底物、抑制剂或其他蛋白质相互作用。AlphaFold的预测可以精确地描绘出蛋白质的整体构型,包括可能的活性位点区域。如果整体结构预测是准确的,那么活性位点区域的结构也有望被准确预测。然而,对于某些蛋白质,特别是那些灵活或未充分特征化的蛋白质,预测的准确性可能会下降,并且确定一个区域是否为活性位点通常需要更多的功能性和生物化学数据。

在实际应用中,药物研发人员通常会结合使用AlphaFold和其他方法来识别和验证活性位点,比如突变分析、结合实验,以及分子对接、动态模拟等其他计算方法。除了结构预测之外,通常还需要对蛋白质进行功能注释,确定可能的活性位点、配体结合区和蛋白质相互作用界面。

虽然AlphaFold在蛋白质结构预测方面取得了突破性进展,直接预测特定的活性位点还需要结合其他实验和计算方法。药物研发人员在利用这些预测时,应该综合考虑多种数据源和方法,以确保对活性位点的准确识别和理解。

问:在药物发现中,使用AlphaFold模型预测药物/配体结合模式的准确性如何?

答:在药物发现中,使用AlphaFold模型或类似的AI结构预测工具来预测药物或配体的结合模式,准确性取决于多个因素,包括模型的预测能力、蛋白质和配体的特性,以及结合模式的复杂性。

蛋白质在与药物或配体结合时可能会发生显著的构象变化,这种“诱导配合”(induced fit)现象意味着静态的蛋白质结构可能无法完全揭示药物结合时的真实状态。有些药物或配体可能会通过与蛋白质结合改变其结构,特别是在与多个亚单位或复杂结构域相互作用时,AlphaFold通常不直接预测这些效应。在实际应用中,AlphaFold提供的蛋白质结构通常与分子对接和分子动力学等其他计算方法结合使用,以更准确地预测和分析药物/配体的结合模式。

AlphaFold提供的结构信息需要注意结合其他计算和实验方法来提高预测的准确性和可靠性。对于任何预测模型,实验验证始终是必需的,与实验技术的结果相结合来验证和优化预测。药物发现是一个综合性很强的领域,依赖于跨学科的方法和多源数据的整合,以确保所发现的药物候选分子的效力和安全性。

问:就目前的技术水准而言,AlphaFold在哪些药物发现问题上表现更好,在哪些方面还有待提高?

答:AlphaFold通过快速准确地确定蛋白质结构,更快地识别新的药物靶点,加速药物设计过程。对已知蛋白质结构的深入理解可以帮助科学家发现现有药物的新用途。

AlphaFold的局限性和待改进之处主要是,对于捕捉这种动态性和复杂的蛋白质-蛋白质或蛋白质-小分子相互作用的能力有限,在预测这些修饰对蛋白质结构的影响方面有限,对于大型蛋白质复合物或非常复杂的蛋白质网络,其预测能力可能会降低。系统生物学、代谢途径、基因表达调控等方面的因素也对药物发现至关重要,而这些是AlphaFold目前无法直接解决的问题。

四、未来进一步发展的突破方向

问:总体来说,AlphaFold对于药物发现的意义是什么?是否可以说,AlphaFold为药物发现打开了一个新世界?

答:从长远角度来说,以人工智能为基础的蛋白质结构预测,对于药物发现的意义是深远的,AF2只是人们迈出的重要一步。传统的药物发现过程通常耗时且成本高昂。人工智能的应用有可能显著缩短药物从发现到上市的时间,并降低相关的研发成本。

对于某些长期以来难以解析结构的蛋白质,如某些膜蛋白,人工智能方法提供了新的解决途径。这些蛋白质往往是重要的药物靶点,AI的应用可以促进这些领域药物研究的进展。其成功激励了计算生物学、结构生物学、药物化学等多个学科之间的合作,推动了这些领域的综合发展

五、团队发展和未来规划

问:马教授能否介绍下你们团队当前的主要工作?您在以往演讲中很多次提到了全链条AI赋能新药研发,是否可以给我们详细介绍下这一技术平台的设计思路、技术模块和未来规划?

答:作为蛋白质结构预测领域顶尖团队,由诺贝尔奖得主Micheal Levitt教授和我带领的复旦大学复杂体系多尺度研究院,聚焦基础科学、交叉学科及源头底层技术,致力于推动生物大分子结构实验测定与计算机预测两大方法齐头并进。团队不仅拥有规模化冷冻电镜平台,更具备一支实力扎实的人工智能人才队伍,在冷冻电镜先进算法和计算机蛋白质结构预测领域科研成果频出。我在结构生物学、计算生物学等交叉领域工作了近40年,我们团队自主研发的OPUS-系列国产软件性能领跑全球。

未来,团队将继续以人工智能为技术中枢,构建新一代生物体系分析工具与方法,解读生物遗传信息,加速生命科学在分子层面的研究。通过对蛋白质、核酸等生物大分子功能结构的预测与设计,为药物研发提供支持,支撑全链条AI-赋能新药研发的先进技术平台

马剑鹏教授简介

马剑鹏教授,博士生导师,国际著名计算生物学家,国家大千人,杰青(海外)。现任复旦大学复杂体系多尺度研究院首任院长、上海人工智能实验室领军科学家。复旦大学化学系学士,美国波士顿大学博士,哈佛大学博士后,师从 Martin Karplus 教授(2013年诺贝尔化学奖得主)和 William Lipscomb 教授(1976年诺贝尔化学奖得主)。曾任美国贝勒医学院(Baylor College of Medicine)和莱斯大学(Rice University)终身教授,贝勒医学院冠顶教授,清华大学生命科学学院教授。美国医学生物工程学会会士,美国科学促进会会士及美国物理学会会士。

2018年,马教授作为上海市高峰人才引进团队核心成员全职归国,与 Michael Levitt(2013年诺贝尔化学奖得主 )教授联合创建复旦大学复杂体系多尺度研究院。研究方向为生物物理、计算生物学及结构生物学,致力于发展针对生物体系研究的人工智能计算方法,与实验手段相结合,解决复杂生物体系中的重要问题。

近年来,在 AI for Science 领域尤为关键的蛋白质结构预测研究中,马教授团队自主研发的 OPUS-系列国产软件性能领跑全球,成功搭建全链条AI-赋能新药研发的先进技术平台。此外,马教授屡获国际学术大奖,如2004年Norman Hackerman化学研究奖等,带领团队发表多项研究成果于 Nature、Science及PNAS等顶尖学术期刊。2021年、2022年,马教授连续入选由Elsevier发布的“中国高被引学者”榜单(生物学),以及由斯坦福大学发布的“全球前2%顶尖科学家终身成就”榜单。

AlphaFold的技术进展距离解决药物发现的核心问题还有多远

点击图片查看会议介绍

——— End ———

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy