刚刚结束的英伟达GTC 2024,展示了这个星球上有关AI的最前沿发现,但对于许多A股投资者来说,大会的唯一作用就是提供了诸多概念供他们炒作。
AI+医药就是如此,借助黄仁勋和英伟达的东风,成为A股近期最热门的赛道之一,国内相关股票接连几个涨停,泓博医药两周接近翻倍,成都先导也较上月低点上涨50%(截至上周统计,目前已经回调了许多)。
投机者往往追逐短期利益,但理性的投资人关注的是长期趋势和基本面的变化,一个不容忽视的事实是,相比上一轮牛熊周期,AI技术的进步,特别是大模型在生命科学领域的应用,为整个生物科技产业带来了变革,这也是黄仁勋等一众大佬对该领域抱强烈看好的原因。
回头来看,Alphafold可能只是开胃菜,AI+生物正在经历新一波浪潮,如果Scaling Law(扩展法则)真的奏效,生物领域诞生超级平台型公司只是时间问题,足够培育出上万亿规模的市场,减肥药在它面前都是小巫见大巫。
Alphafold引领上一轮投资狂潮
AI给生命科学带来有史以来的最大震撼,非Alphafold莫属。这一技术突破,也推动了疫情期间AI医药的投资高潮。
这款预测蛋白质结构的模型由DeepMind开发,其在AI领域的成就不逊于当下最炙手可热的OpenAI,2016年爆火的AI围棋模型AlphaGo正是出自这家公司,在击败韩国传奇围棋选手李世石后,DeepMind将目光移到了“蛋白质折叠问题”,开始攻坚这一生物学的“圣杯”。
图:韩国棋手李世石对弈AlphaGo
作为生物最基本的分子之一,蛋白质是生命活动的主要承担者,在生命科学各个领域都有着不可忽略的重要意义。
生物学家认为“结构决定功能”,于是了解蛋白质的结构就成为蛋白质研究的关键,但仅仅这一步就难如登天,因为蛋白质基本组成单位是22种氨基酸,若干个氨基酸构成肽链,n个肽链又经过扭曲折叠形成不断变化的蛋白质,听上去就足够复杂。
图:蛋白质的四级结构
尤其是蛋白质从无规则卷曲折叠成特定三维结构的过程,直接决定了蛋白质发挥什么功能,十分重要,但其影响因素接近无穷多、机制极其复杂。被认为“现代科学中最重要但尚未解决的问题之一”。
如此具有挑战性的问题,自然吸引一批科学家们前赴后继,学界也在1994年设置了国际蛋白质结构预测竞赛(CASP),每两年一届,代表着世界上最前沿的蛋白结构预测进展。
2018年12月,AlphaFold在第13届CASP13横空出世,技惊四座,以60%的预测准确率力压其他参赛者(40%左右)取得第一名。两年后,AlphaFold2惊艳世界,其预测蛋白质结构的准确率达到了近90%,又一次断层领先,且精确度可以媲美实验测定。
AlphaFold证明了AI在生命科学的无穷潜力,开启了人工智能赋能生物科技的新纪元。通过其高精度的蛋白质结构预测能力,AI加速了药物发现和疾病机理的研究。
新技术实现了以前难以想象的成就,自然也为这个赛道带来前所未有的热度。
2020-2021年,共有12家海外AI制药公司成功上市,其中多家公司首日股价创下超过60%的涨幅。而仅2021年,全球AI制药领域就披露了超60起投融资事件,累计融资超40亿美元,在当年全球生物制药领域前十大融资榜单中,AI制药公司占据四席,一时间风头无两。
但之后该领域又经历了一轮剧烈的调整,除了宏观金融环境变化外,市场也发现,此前对于AI制药的预期过于乐观,实际上人工智能在整个制药流程中的发挥空间还很有限,一些AI设计药物的临床失败更加重了人们对新技术的质疑。
这次不一样!大模型带来了什么?
虽然过去一段时间AI+医药热度有所下降,但科技发展没有停下脚步,Chatgpt的惊艳亮相展现出大模型的强大能力和广泛应用前景。
而在生物领域,过去二十年来,测序技术变得更加便宜且更容易获得,可用于训练人工智能模型的基因和蛋白质序列数据的数量呈指数级增长,为生物大模型的出现铺平了道路。
以AlphaFold为代表的算法需要复杂的结构信息作为输入,而语言模型们能够基于序列处理问题,后者在数据量上具备明显优势,比如Meta发布的蛋白质语言模型ESMFold就有150亿个参数。
庞大的数据意味着,Scaling Law可能将在生命科学领域发挥作用。
所谓Scaling Law(扩展法则),简单来说就是“大力出奇迹”,只要数据量足够多、算力足够大,模型可以发生质变,产生意想不到的结果。Scaling Law由OpenAI提出并践行,Chatgpt和Sora 的出现被认为是这一法则的产物。
近来一些相关成果显示,大模型的确为生命科学领域带来了新的可能。
去年,Salesforce Research等研究团队开发出一种名为 ProGen 的蛋白质语言模型,该模型利用来自 19000多个家族的2.8亿个蛋白质序列进行训练,再经历溶菌酶方向的微调后,生成了一百万个序列。研究人员选取了100个进行测试,73%的蛋白序列表现出了与鸡蛋清溶菌酶相当的活性。
研究人员表示:“这证明 ProGen 有能力产生新的蛋白质……我们正在进入蛋白质设计的新时代”。
人类如果掌握了从头设计蛋白质的技术,包括抗体药物在内的疗法将迎来巨大突破,一键生成可以进入临床试验的药物并不是幻想。
更激动人心的是,大语言模型还有望打通DNA、RNA 和蛋白质序列,破解生命通用“语言”。
就在上个月,Arc Institute、斯坦福大学和 TogetherAI 研究人员开发了基础生物学模型Evo,该模型拥有约70亿参数,能够执行从分子到全基因组规模的预测任务和生成设计。
通过整合蛋白质、RNA和DNA的语言模型,Evo模型提供了一个统一的框架来研究生物分子之间的相互作用和功能,对于理解复杂生物系统和疾病机理具有重大意义。
未来,大模型将可能超越对蛋白质等单个分子的建模,转而对蛋白质与其他分子的相互作用进行建模,然后对整个细胞、组织、器官进行建模,最终对整个生物体进行建模。
听起来相当科幻,但黄仁勋对此抱有极大热情,他曾表示“当数据科学、人工智能和自动化的结合时,生物学将转变为可工程化的系统……如果我们能像理解一个段落那样理解一个细胞,想象一下我们能做什么。”
写在最后
AI将彻底改变生命科学,这是当下许多顶级精英的共识。
就拿国内来说,字节的张一鸣、搜狗的王小川、快手的宿华、百度的李彦宏都用行动表达了对这一赛道的强烈看好。
未来,当AI深度参与到医药的方方面面,这一古老行业将会迎来“科技化”的分水岭。
辉瑞从0到近1600亿美元用了170多年时间,而市值是它十倍的谷歌至今才不到26年历史,这一定程度上是行业属性导致的,与绝大多数行业已经进入“流水线”时代不同,制药业很大程度上仍保留着手工业的特征。
而今后,大模型的出现有可能将打破这两者的差别,将生物学研究正在从传统的定制化工艺转变为一种更精简、可重复、数据驱动的过程,这意味着生命科学领域也将诞生谷歌、微软这样万亿美元的科技巨头,届时这些公司将会改变包括医药、食品、环境、能源等诸多产业。
毫无疑问,一个超级风口已然出现。
—The End—
推荐阅读