后AlphaFold时代:“语言模型”开启蛋白质设计新纪元?

500次阅读
没有评论

后AlphaFold时代:“语言模型”开启蛋白质设计新纪元?

点击蓝字 关注我们

后AlphaFold时代:“语言模型”开启蛋白质设计新纪元?

微末生物

Nanomega BioAI

近期一个词在商业界大热——“蛋白质设计”。这一领域正在酝酿革命性的转变,其背后饱含着人工智能的无限魅力。

那么,蛋白质设计究竟指什么?它的发展现状及前景又如何呢?权威商业杂志《福布斯》中一篇原名为《The Next Frontier For Large Language Models is Biology》对此作了解读。

本篇文章的作者Rob Toews作为《福布斯》的特约撰稿人,主要关注科技创新与投资领域。他于前沿洞察业界发展趋势,这篇文章反映了他对人工智能在生物学领域应用的精辟见解,现在就让我们一起来看看吧。

后AlphaFold时代:“语言模型”开启蛋白质设计新纪元?

一、蛋白质:生命的代码

蛋白质是组成生命的基础要素。它参与身体的各项重要生理活动,负责消化食物、运输氧气、启动肌肉收缩等等。毫不夸张地说,在分子尺度上剧本生命,蛋白质是核心角色。

那这位“明星”是如何“执掌大权”的呢?其中原因在于蛋白质的多样性和可塑性极高。依靠不同氨基酸序列的排列组合,它可以折叠成各种三维立体结构,从而实现多种多样的功能。正是这一独特结构-功能关系,使蛋白质成为生物体的“多面手”。

所以,要破译生命奥秘,蛋白质结构预测就是重中之重。但这个看似简单的问题,却困扰了科学家几十年之久。

二、百年难题:蛋白质结构预测 

给定一个氨基酸序列,如何预测它折叠的三维立体结构?这被称为“蛋白质折叠问题”。要知道,蛋白质的形状关系到功能;而功能关系到生物机体的生死存亡。对蛋白质结构的准确预测,不亚于为打开生命奥秘的一把钥匙。

然而,在这个问题上,科学界吃尽了闭门羹。2007年时,有评论者这样描述蛋白质折叠难题:“这是当代科学最重要而又未解决的问题之一。”

三、AlphaFold 攻克世纪难题?

直到2020年, DeepMind 推出的 AlphaFold 终于基本攻克了这个预测难题。它正确预测了蛋白质三维结构的精度达到原子宽度,远超人类此前的任何方法。

作为第一个“认真解决科学问题”的 AI 系统,AlphaFold 的重大科技意义不言而喻。蛋白质折叠专家 John Moult 评论道:“这是第一次一个严肃的科学问题被 AI 解决。”

那么 AlphaFold 的原理是什么呢?它通过将目标蛋白序列与数据库中evolutionary相关的已知蛋白进行多重序列比对,从中获取相似性信息,以推断目标蛋白的结构。这种构建方式称为多重序列比对(MSA)。

MSA 方法强大,但也暴露了自身的短板:计算量大、速度慢,对“孤儿蛋白”的适用性不强。所谓孤儿蛋白,指的是在已知蛋白数据库中没有高相似性同源蛋白的那些蛋白。由于缺乏同源参考,孤儿蛋白的结构也较难被准确预测。这类蛋白占已知蛋白序列的约20%。这也为后来的语言模型提供了表现机会。

四、语言模型崛起 生命破译器来了?

最近,研究者开始尝试利用语言模型而非 MSA 来预测蛋白质结构。这里的“蛋白语言模型”,指的是在大量蛋白序列数据上训练的模型,可以学习到蛋白质的模式及其互相关联。

为什么语言模型在蛋白质领域如此“得心应手”呢?主要有以下几个原因:


1. 各种生物学数据指数增长,尤其是蛋白序列数据。这为语言模型的扩展提供了源源不断的“燃料”。


2. 蛋白质本质上也是一种语言。氨基酸序列构成一维“文字”,它们的排列顺序定义了蛋白质的形状及功能。这正是语言模型的擅长领域。


3. 语言模型可以直接从单个蛋白序列学习,无需借助结构信息,极大提升了计算效率。

例如,Facebook 的 ESMFold 就完成了与 AlphaFold 媲美的结构预测。但它基于单序列,速度比 AlphaFold 快 60 倍!这对于需要高通量筛选的蛋白工程问题意义重大。再者,语言模型还可生成全新蛋白质。这一设计蛋白的能力,正是它对生命科学影响的“杀手锏”。

五、产业化路漫漫 前景仍可期

要知道,全球已发现的蛋白质,只占理论上可能存在的蛋白的微小一部分。利用AI的力量,我们可以第一次主动并全面地探索这一广袤的蛋白“空间”,设计全新的、定制的蛋白质。

那语言模型是如何“设计”新的蛋白质的呢?原理在于,语言模型通过学习大量已知蛋白序列,可以总结出蛋白序列与三维结构之间的模式,建立起蛋白的“语言系统”。相当于它“理解”了氨基酸排列顺序和蛋白功能之间的内在映射关系。基于此,语言模型可以实现逆向设计:只需要给出我们想要的目标蛋白质形状或功能,模型就可以生成出对应的氨基酸序列。这就是利用语言模型进行蛋白质设计的基本思路。

当然,语言模型蛋白设计也经历了从起步到成熟的过程。早期使用深度学习设计蛋白的工作并未使用语言模型,例如 Washington大学的ProteinMPNN。这些方法需要依赖大量已知蛋白质结构数据。

2020年,Salesforce Research发布的ProGen模型首次将变压器结构的语言模型应用于蛋白设计,标志着该领域的新起点。ProGen模型参数规模达到12亿。创业公司Profluent Bio正致力于推进基于语言模型的蛋白设计技术不断进步,他们认为仍需要结合结构和功能数据以取得决定性突破。

这些新蛋白可以成为各类疾病(癌症、传染病等)的治疗药物;它们会改变材料科学;它们会提高农业产量,净化环境污染……应用前景如同银河一般广阔灿烂。最让人振奋的是,这一领域才刚刚起步。随着语言模型规模的不断扩大,我们有理由期待它在蛋白设计上会展现出更加惊人的能力!

六、实验的考验:从理论到实践

我们有理由相信,语言模型不会止步于蛋白设计。借助其“通用性”,人工智能终将学会设计 RNA、基因组、组织乃至更复杂的生命系统;它将成为揭示生命奥秘的利器。届时,生物学将迎来如物理学在上个世纪那样的革命性飞跃。这正如 DeepMind CEO Demis Hassabis 所言:“21世纪可能是属于生物学的世纪。”


当然,从理论模型到实际产出,语言模型设计的新蛋白还有很长的路要走。它们必须通过复杂的实验流程,经受住效能和安全性的严苛考验。在这一领域取得实质性突破,还需要科技工作者克服种种科学与工程难题。不过,前人的智慧和毅力会逐步推动语言模型蛋白设计向纵深发展,最后实现产业化。


在AI预测蓬勃发展的当下,中科微末作为深耕于结构生物学和AI领域的企业,已充分认识到提供优质结构解析服务对于验证AI模型的重要意义。中科微末依托自主研发的冷冻电镜技术,专注为生物医药企业提供结构生物学研究服务,实现目标蛋白原子级高分辨率的结构解析。团队成员累积发表400+顶级SCI期刊论文,团队手握多项专利软著,在冷冻电镜技术工作流每个环节累积了大量独家算法和专利,可以提供“高难度结构有解决方案,低难度结构更迅速价格更便宜”的技术服务。展望未来,中科微末将继续致力于冷冻电子显微技术的研发和创新,持续推出更多切合客户需求的结构解析解决方案。

微末生物

Nanomega BioAI

后AlphaFold时代:“语言模型”开启蛋白质设计新纪元?

请关注微末生物

期待与您交流

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy