基础模型将成为越来越重要的科学工具。
今日,由Arc Institute、斯坦福大学和 TogetherAI 研究人员宣布开发了一款名为Evo基础生物学模型,概括了生物学的基本语言——DNA、RNA 和蛋白质。
研发团队称,Evo能够执行从分子到全基因组规模的预测任务和生成设计。
它也是同类产品中第一个以单核苷酸分辨率在全基因组范围内预测和生成 DNA 序列的产品。
跨越整个中心法则
过去几年里,随着AlphaFold2的出现,生物学基础模型得到了长足的发展。
但是这些模型仍然有很大的局限性,一般集中在短上下文、特定任务和单模态功能中,例如蛋白质结构预测(AlphaFold、ESMFold)。
但实际上根据中心法则,DNA才是一切的起点。以DNA编码为基础,其他生物学语言也由此产生,包括RNA转录和蛋白质翻译等。
于是来自科学家提出了一个问题:有没有一个能有效学习基因组的基础模型,它不仅可以理解单个 DNA、RNA 和蛋白质成分,还可以理解它们如何相互作用以创建复杂的系统?
于是Arc Institute(没错就是那个富豪砸5亿美元让老婆安心做科研的新型机构)、斯坦福大学和 TogetherAI 研究人员开发了一个名为Evo的生物学基础模型,概括了生物学的基本语言:DNA、RNA 和蛋白质。
Evo拥有约70 亿参数,能够执行从分子到全基因组规模(长度超过 650k )的预测任务和生成设计。
为了训练Evo,研究人员编译了一个300B 的训练数据集OpenGenome,其中包含来自原核生物的270 万个公开可用的基因组,并在此以单核苷酸分辨率进行训练。
Evo模型架构,基于StripedHyena
由于 Evo 的基因组训练数据中不仅仅包含蛋白质,基因组中还包含 ncRNA 和调控 DNA 序列。
Evo 模拟了生物学的基本模式
因此 Evo 是一种蛋白质语言模型,它也是一种RNA语言模型,甚至是一个DNA模型。
值得注意的是, Evo 能够对蛋白质、 ncRNA 和调控DNA 进行零样本功能预测,从而跨越中心法则的所有三种模式。
跨 DNA、RNA 和蛋白质模式的零样本函数预测
经过检验,Evo能够很好地学习蛋白质语言以执行零样本蛋白质功能预测,在蛋白质训练上甚至可以与最先进的蛋白质语言模型(如ESM或ProGen)竞争。
因此,与当前生物学生成模型专注于单任务不同,整合多种生物学编码的Evo可以执行多模式设计。
例如,团队用 Evo 生成世界上第一个人工智能生成的 CRISPR-Cas 系统。
CRISPR-Cas 系统需要创建蛋白质和 ncRNA(非编码 RNA)的大型功能复合物,并且是现有生成模型无法实现的。
而Evo 提供了一种通过直接从生成模型中采样序列来生成生物多样性的新方法,这是创建新型基因组编辑工具的令人兴奋的前沿。
在蛋白质设计和功能预测方面,在基因组规模方面的建模也将有促进作用。
毕竟蛋白质不能在真空中发挥作用,Evo 展示了在“基因组背景”中推理蛋白质的有前途的能力!
未来,团队期待训练更大的模型,提高其生成能力,并将 Evo 预训练扩展到人类基因组。
通过增强这些模型所学到的生物复杂性,我们相信我们可以在对抗复杂疾病和改善人类健康方面取得重大进展。
目前,该研究成果预印本已经发布且项目开源。
(https://github.com/evo-design/evo)
生物学语言模型的持续加速
这一研究成果发出后,不少人表示这是一项令人兴奋的研究,看到生物学语言模型的持续加速。
在该模型中,很多下游任务可以在基因组规模上进行推理。
此前早有专家预计,而人们距离建立生物分子信息(从DNA 到基因表达到蛋白质)的精确计算机模型只有几年的时间,这些模型可以与实验准确性相媲美,并可用于医学和药物发现。
也就是说,大语言模型最重要的长期机会将需要一种完全不同类型的语言:生物学语言。
去年,笔者写了一篇关于生命科学大模型的内容,总结了用于药物研发和生命科学的大模型。而如今,关于生命科学的基础模型正在不断进化。
研究人员和从业人员可以针对特定任务微调这些预先训练的模型,从而为各种下游应用提供高性能系统。分子生物学中已经开始出现一些基础模型。
前不久,法国初创公司 Bioptimus 获得 3500 万美元的种子轮融资。这家公司组建了一支由谷歌DeepMind 等人工智能领导者组成的科学家团队。
Bioptimus 认为,基础模型是生物学的未来。科学界开始探索生物学中的基础模型,并取得了非常有希望的早期成功,但基础模型在规模和复杂性上仍然有限。
因此Bioptimus 旨在建立通用的“生物学基础模型”,可以融合基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱、空间转录组学等多种数据类型。
正如 DeepMind 首席执行官Demis Hassabis 所说:“在最基本的层面上,我认为生物学可以被视为一种信息处理系统,尽管它是一个极其复杂和动态的系统。正如数学被证明是物理学的正确描述语言一样,生物学也可能成为人工智能应用的完美类型。”
由此我们可以合理的预期,未来生物医学的基础大模型将走向高速公路。
—The End—
推荐阅读