“AI for Science”
随着生命科学的快速发展,组学(omics)测序技术层出不穷,为理解复杂的生命体提供了支撑性的技术手段。而人工智能(AI)的突飞猛进,又将有效的助力生物医学研究,形成“AI for Science”的交叉研究新范式。从AlphaGO到AlphaFold再到ChatGPT,颠覆性的AI技术和应用不断涌现。传统生命科学研究的范式正在从研究单个基因、单个蛋白的还原论范式,向依托于大规模组学测序技术进行基因组、蛋白质组研究的系统论范式转变,而AI正是推动这场范式变革的重要驱动力之一。生命科学领域的科学研究正在经历一场风暴,风暴源于狂飙突进的人工智能技术,“拥抱”还是“逃离”,成为摆在每位教学和科研工作者面前的选择题。
面向该数据驱动的生命健康研究新范式,近日,由同济大学刘琦教授撰写的《组学机器学习》新书面世。该书的起笔,源于作者在同济大学开设的面向生物医学专业的“机器学习理论与方法”的课程教学,以及所进行的科研实践。机器学习课程一般开设在计算机相关专业,组学数据处理一般开设在生命科学相关专业,二者鲜有结合。虽然“AI + Omics”已逐渐成为生物医学研究的利器,但在该领域国内外尚缺乏相关的教材或著作。
该书旨在面向组学数据挖掘的痛点和挑战,进行组学机器学习相关范式、理论、方法的系统梳理和总结,并结合作者团队多年的科学研究工作,进行相关应用案例的展示及介绍,帮助读者了解这一激动人心的前沿领域,抛砖引玉,激发读者举一反三,进行深入的思考。
为帮助读者建立组学机器学习这一交叉领域所必须的知识体系,该书对于撰写内容和风格进行了精心的规划。该书避免对于组学测序技术本身或者机器学习的具体模型进行繁复的介绍,而是力求对于“组学+机器学习”二者结合的范式和思想进行总结和梳理,力图体现作者对于该领域的若干思考。
该书第1章首先提出了组学测序技术发展的方向,包括多尺度、跨模态、有扰动等,同时总结了组学数据的高维度、高噪声、多模态、标记稀缺等特点,这种组学数据的特点成为制约其有效挖掘的瓶颈。基于此,同时提出了面向组学数据弱监督特点的机器学习研究范式的整体框架,该书的第二部分为组学的表征学习,具体包括第2~4章,分别介绍对于组学样本进行有效表征的三个层面:度量(第2章),嵌入(第3章),多模态整合(第4章);该书的第三部分为组学的弱监督学习,具体包括第5~8章,分别介绍了弱监督场景下组学数据挖掘具体的机器学习范式和方法,包括:半监督学习(第5章),迁移学习(第6章),元学习(第7章),主动学习(第8章);该书第四部分为组学数据的隐私计算,具体介绍一种特定的隐私计算方法—联邦学习(第9章)。机器学习模型和算法层出不穷,但涉及生物医学数据的分析,作者认为其核心思想仍是一种弱监督学习的体现,这种弱监督学习的范式体现在第2~8章。联邦学习(第9章)在生物医学领域亦是一种弱监督场景下隐私计算的特定方式。故建议读者以“弱监督”这一核心思想来理解该书的撰写逻辑和思路。从这个意义上说,机器学习算法的设计和应用,不是一个简简单单的模型套用和调参,而应该针对组学数据本身的特点来进行系统的发展,这也是“AI for Omics”所追求的最高目标。
该书在撰写过程中力求保持统一风格,每一章均按照特定机器学习范式的“适用场景”-“理论思想”-“组学应用概述” -“研究案例”-“案例小结”五部分展开,旨在结合组学数据特点对相应的机器学习范式进行介绍,并展示相应的组学挖掘研究案例。这些案例均体现了作者团队多年在组学数据挖掘领域进行的有益尝试,主要隶属于精准医学方向,涉及靶点识别、药物发现、个体化用药、免疫治疗以及基因编辑等多个具体领域,其中所涉及的组学数据包括基因组、转录组、免疫组、单细胞组、药物基因组、CRISPR 功能基因组等。
需要特别说明的是,由于人工智能和机器学习相关的书籍、文献、网上资源非常丰富,故该书避免了对特定的机器学习算法进行繁复的介绍,仅关注对相应的机器学习范式和理论思想进行梳理与总结。如果把具体的机器学习模型比喻成特定的“武功招式”,那么该书介绍的机器学习范式和理论思想则相当于“内功心法”。我们建议读者不必拘泥于一招一式,而是去学习“内功”。正所谓“万象归一,大道至简”,机器学习的模型层出不穷、千变万化,但是其核心的理念和思想是可以梳理与总结的,该书将帮助读者建立这种学习范式的全景图。
该书由清华大学张学工教授和微众银行首席人工智能官杨强教授作序,得到了国家自然科学基金项目、科技部重点研发计划项目、上海市科技创新行动计划项目,以及微众学者基金的支持。正如张学工教授所指出:“生物组学数据的机器学习包含的方面非常广,该书虽然选择只在其中一部分有代表性的问题上进行阐述,但足以窥见整个领域的重要特点和核心思想,相信该书对于广大生命科学和机器学习研究者都将有很大的借鉴和启发意义。通过该书,读者应该认识到,面向生命科学的人工智能,与现在最成功的面向计算机视觉、自然语言处理和机器博弈等领域的人工智能相比,有很多独特的挑战。其中最大的区别是:在人工智能取得重要突破的这些领域,人们希望人工智能完成的任务和具有的能力是人类本身能完成和已经具备的,虽然在其中一些任务上人工智能已开始超越人类;但在生命科学领域,以组学数据分析为例,人们获取组学数据的目的是理解人类现在尚不能理解的原理和规律,人类本身并没有能力仅依靠自己的知识完成对如此大量、高维、高噪声和不完整数据的分析,我们希望人工智能帮助完成的是人类本身并不能完成的任务。我想,这应该是面向生命科学的人工智能所面临的最大挑战。该书给出的成功案例让我们看到了组学机器学习的巨大潜力,但这仅仅是人们用人工智能帮助探究生命奥秘的开始,更多问题还在等待我们去突破。”
让我们一起走进“组学”+“智能”这一激动人心的前沿交叉领域。人工智能驱动的组学数据挖掘,将是一种碳基智能和硅基智能的完美融合,我们期望为读者展现这二者融合的美丽风景!也希望和读者一起在其中留下绚烂的一笔!
样张展示
向下滑动查看
书号:978-7-03-076151-4
同济大学 刘琦 著