后AlphaFold时代：“语言模型”开启蛋白质设计新纪元？

点击蓝字关注我们

微末生物

Nanomega BioAI

近期一个词在商业界大热——“蛋白质设计”。这一领域正在酝酿革命性的转变，其背后饱含着人工智能的无限魅力。

那么，蛋白质设计究竟指什么？它的发展现状及前景又如何呢？权威商业杂志《福布斯》中一篇原名为《The Next Frontier For Large Language Models is Biology》对此作了解读。

本篇文章的作者Rob Toews作为《福布斯》的特约撰稿人，主要关注科技创新与投资领域。他于前沿洞察业界发展趋势，这篇文章反映了他对人工智能在生物学领域应用的精辟见解，现在就让我们一起来看看吧。

后AlphaFold时代：“语言模型”开启蛋白质设计新纪元？

一、蛋白质：生命的代码

蛋白质是组成生命的基础要素。它参与身体的各项重要生理活动，负责消化食物、运输氧气、启动肌肉收缩等等。毫不夸张地说，在分子尺度上剧本生命，蛋白质是核心角色。

那这位“明星”是如何“执掌大权”的呢？其中原因在于蛋白质的多样性和可塑性极高。依靠不同氨基酸序列的排列组合，它可以折叠成各种三维立体结构，从而实现多种多样的功能。正是这一独特结构-功能关系，使蛋白质成为生物体的“多面手”。

所以，要破译生命奥秘，蛋白质结构预测就是重中之重。但这个看似简单的问题，却困扰了科学家几十年之久。

二、百年难题：蛋白质结构预测

给定一个氨基酸序列，如何预测它折叠的三维立体结构？这被称为“蛋白质折叠问题”。要知道，蛋白质的形状关系到功能；而功能关系到生物机体的生死存亡。对蛋白质结构的准确预测，不亚于为打开生命奥秘的一把钥匙。

然而，在这个问题上，科学界吃尽了闭门羹。2007年时，有评论者这样描述蛋白质折叠难题：“这是当代科学最重要而又未解决的问题之一。”

三、AlphaFold 攻克世纪难题？

直到2020年， DeepMind 推出的 AlphaFold 终于基本攻克了这个预测难题。它正确预测了蛋白质三维结构的精度达到原子宽度，远超人类此前的任何方法。

作为第一个“认真解决科学问题”的 AI 系统，AlphaFold 的重大科技意义不言而喻。蛋白质折叠专家 John Moult 评论道：“这是第一次一个严肃的科学问题被 AI 解决。”

那么 AlphaFold 的原理是什么呢？它通过将目标蛋白序列与数据库中evolutionary相关的已知蛋白进行多重序列比对，从中获取相似性信息，以推断目标蛋白的结构。这种构建方式称为多重序列比对(MSA)。

MSA 方法强大，但也暴露了自身的短板：计算量大、速度慢，对“孤儿蛋白”的适用性不强。所谓孤儿蛋白，指的是在已知蛋白数据库中没有高相似性同源蛋白的那些蛋白。由于缺乏同源参考，孤儿蛋白的结构也较难被准确预测。这类蛋白占已知蛋白序列的约20%。这也为后来的语言模型提供了表现机会。

四、语言模型崛起生命破译器来了？

最近，研究者开始尝试利用语言模型而非 MSA 来预测蛋白质结构。这里的“蛋白语言模型”，指的是在大量蛋白序列数据上训练的模型，可以学习到蛋白质的模式及其互相关联。

为什么语言模型在蛋白质领域如此“得心应手”呢？主要有以下几个原因：

1. 各种生物学数据指数增长，尤其是蛋白序列数据。这为语言模型的扩展提供了源源不断的“燃料”。

2. 蛋白质本质上也是一种语言。氨基酸序列构成一维“文字”，它们的排列顺序定义了蛋白质的形状及功能。这正是语言模型的擅长领域。

3. 语言模型可以直接从单个蛋白序列学习，无需借助结构信息，极大提升了计算效率。

例如，Facebook 的 ESMFold 就完成了与 AlphaFold 媲美的结构预测。但它基于单序列，速度比 AlphaFold 快 60 倍！这对于需要高通量筛选的蛋白工程问题意义重大。再者，语言模型还可生成全新蛋白质。这一设计蛋白的能力，正是它对生命科学影响的“杀手锏”。

五、产业化路漫漫前景仍可期

要知道，全球已发现的蛋白质，只占理论上可能存在的蛋白的微小一部分。利用AI的力量，我们可以第一次主动并全面地探索这一广袤的蛋白“空间”，设计全新的、定制的蛋白质。

那语言模型是如何“设计”新的蛋白质的呢？原理在于，语言模型通过学习大量已知蛋白序列，可以总结出蛋白序列与三维结构之间的模式，建立起蛋白的“语言系统”。相当于它“理解”了氨基酸排列顺序和蛋白功能之间的内在映射关系。基于此，语言模型可以实现逆向设计：只需要给出我们想要的目标蛋白质形状或功能，模型就可以生成出对应的氨基酸序列。这就是利用语言模型进行蛋白质设计的基本思路。

当然，语言模型蛋白设计也经历了从起步到成熟的过程。早期使用深度学习设计蛋白的工作并未使用语言模型，例如 Washington大学的ProteinMPNN。这些方法需要依赖大量已知蛋白质结构数据。

2020年，Salesforce Research发布的ProGen模型首次将变压器结构的语言模型应用于蛋白设计，标志着该领域的新起点。ProGen模型参数规模达到12亿。创业公司Profluent Bio正致力于推进基于语言模型的蛋白设计技术不断进步，他们认为仍需要结合结构和功能数据以取得决定性突破。

这些新蛋白可以成为各类疾病（癌症、传染病等）的治疗药物；它们会改变材料科学；它们会提高农业产量，净化环境污染……应用前景如同银河一般广阔灿烂。最让人振奋的是，这一领域才刚刚起步。随着语言模型规模的不断扩大，我们有理由期待它在蛋白设计上会展现出更加惊人的能力!

六、实验的考验：从理论到实践

我们有理由相信，语言模型不会止步于蛋白设计。借助其“通用性”，人工智能终将学会设计 RNA、基因组、组织乃至更复杂的生命系统；它将成为揭示生命奥秘的利器。届时，生物学将迎来如物理学在上个世纪那样的革命性飞跃。这正如 DeepMind CEO Demis Hassabis 所言：“21世纪可能是属于生物学的世纪。”

当然，从理论模型到实际产出，语言模型设计的新蛋白还有很长的路要走。它们必须通过复杂的实验流程，经受住效能和安全性的严苛考验。在这一领域取得实质性突破，还需要科技工作者克服种种科学与工程难题。不过，前人的智慧和毅力会逐步推动语言模型蛋白设计向纵深发展，最后实现产业化。

在AI预测蓬勃发展的当下，中科微末作为深耕于结构生物学和AI领域的企业，已充分认识到提供优质结构解析服务对于验证AI模型的重要意义。中科微末依托自主研发的冷冻电镜技术，专注为生物医药企业提供结构生物学研究服务，实现目标蛋白原子级高分辨率的结构解析。团队成员累积发表400+顶级SCI期刊论文，团队手握多项专利软著，在冷冻电镜技术工作流每个环节累积了大量独家算法和专利，可以提供“高难度结构有解决方案，低难度结构更迅速价格更便宜”的技术服务。展望未来，中科微末将继续致力于冷冻电子显微技术的研发和创新，持续推出更多切合客户需求的结构解析解决方案。

微末生物

Nanomega BioAI

后AlphaFold时代：“语言模型”开启蛋白质设计新纪元？

请关注微末生物

期待与您交流

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

后AlphaFold时代：“语言模型”开启蛋白质设计新纪元？

test

test

文心AIGC

test

test