AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

1,173次阅读

DALL⋅E 想象的 2023 年 AI for Science（与AI4Science目前的发展类似：图像不完美，许多单词拼写错误）。

导语

近日，Al4Science workshop （https://ai4sciencecommunity.github.io/）组织者们发表博客文章，提出为什么要强调AI4Science。文章总结了AI4Science在2023年取得的进展，涵盖从化学、生物、计算机/数学科学、物理、地球科学、神经科学到医学的各个领域，并送上了他们对AI4Science在2024年发展的期望。
集智俱乐部从2023年以来发起组织了AI+Science系列读书会，涵盖物理、生物医学、数学等多个学科，并将持续关注AI在各个科学领域的应用，以及其他科学领域对AI的启发。欢迎感兴趣的朋友关注！
研究领域：AI4Science，人工智能，科学发现ScienceAI | 来源AI4Science workshop组织者 | 作者ScienceAI | 编辑

2021年，一群热血青年提出了要把AI4Science（AI for Science）带入机器学习顶会NeurIPS。

什么？AI4Science是一门学科吗？是不是靠着AI蹭热点？各种质疑声接踵而来。

这些质疑和不解也反映在了第一届AI4Science workshop的较为平淡的群众参与度上。

时过境迁，两年的时间见证了DeepMind基于AlphaFold建立Isomorphic Lab，微软建立AI4Science Initiative, 以及国内深势科技，AISI等大力推动AI4Science建设的企业，学术机构的不断发展壮大。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

2023年8月，Al4Science workshop组织者们还在《自然》杂志上发表了一篇综述文章，总结了过去几年里Al4Science在科学发现流程上的进展，并为未来指了指路。

论文题目：Scientific discovery in the age of artificial intelligence

论文链接：https://www.nature.com/articles/s41586-023-06221-2

参看集智俱乐部 AI+Science 社区成员，综述作者之一、斯坦福博士后王瀚宸撰写的解读文章：《Yoshua Bengio领衔跨学科团队，Nature刊文综述人工智能时代的科学发现》

去年12月NeurIPS，AI4Science workshop收到超过200篇投稿和上千人次的参与，俨然成为了NeurIPS最大的workshop之一。看到这些数字，似乎已经没有人再说AI4Science是伪命题了。

近日，Al4Science workshop组织者们发表一篇博客，提到了为什么要强调AI4Science。文章总结了AI4Science在2023年取得的进展，涵盖了从化学、生物、计算机科学/数学科学、物理、地球科学、神经科学到医学的各个领域。最后，组织者们送上了他们对AI4Science在2024年发展的期望。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

Blog 地址：https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7

为什么要强调AI4Science？

随着AI在多个学科各放异彩，另一个问题接踵而至，为什么要强调AI4Science，大家分别做AI在子领域的应用，比如AI4Drug和AI4Materials，不就好了吗？组织者们指出了这样几个原因。

跨领域的协同作用：AI4Science的诞生，不仅促进了AI和各种科学学科之间的协同关系，还在AI和科学的不同子领域间搭建了桥梁。这种跨学科的互动，就像给科学研究加了一把火，不断在不同领域催生交融的解决方案。
知识的层级组织：就像学科的不同分类一样，AI4Science代表了一个更高阶的领域，它包含并超越了专门的子领域。AI4Science提供了一个宏观视角，将AI在特定科学领域的更专注应用连接起来，并赋予它们更广泛的背景和意义。
解决社群大挑战：AI4Science独具慧眼，专门解决广泛的、超越单一学科的社群大规模挑战。通过集合多元化的观点和专长，我们的社群不仅能对付科学难题，还能面对诸如多样性、资源、道德和教育等社群系统性挑战
独特的协作机会: AI4Science汇集了面临共同挑战和方法论的各领域专家，并且培养年轻一代共享知识，更有效地解决复杂问题的习惯。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

AI4Science在2023年到底有什么进展呢？

说了这么多，AI4Science在2023年到底有什么进展呢？组织者们先是给出了一些概括性的总结：

大型语言模型（LLMs）正影响着所有领域。它们改变了人类与机器的互动方式，并展示了在各个领域的影响力，从化学和生物学的实验规划，到计算机科学中寻找更好的算法，乃至在医学中扮演通才型AI代理。说白了，LLMs就像万金油，无所不能，不仅帮你搞对话小助手，还能帮你做实验。
自动化实验室用于数据生成和实验。过去一年里，将AI集成到实验规划中，并使用机器人进行自动化执行，这一大进步架起了实验合成和验证之间的桥梁。虽然这些举措还处于发展的初期阶段，但它们展示了不错的潜力，不仅能测试AI规划算法，还能显著提高数据生成的质量和数量。这反过来加速了实验验证，有助于完成AI发现的闭环。
生成模型用于设计。不只有LLM可以帮助我们生成，扩散模型也可以！扩散模型在多个领域，如设计新功能蛋白、捕获化学反应中的过渡结构、从大脑活动重构图像，和量子色动力学中采样场配置方面均取得了成功。
发展原子大模型。通用的预训练得到大模型，随后在下游任务中进行微调。这种做法在科学领域越来越流行。去年这一方面的努力，尤其是针对原子力场和生物系统的“基础大模型”，逐渐多了起来。
大型科技公司正在推动AI4Science的边界。微软、谷歌DeepMind、Meta、英伟达这样的大型科技公司对AI4Science投入明显增加。他们卓越的计算能力和AI科学家的储备在推动利用AI的各个科学领域的进步方面越来越有影响力。
开源闭源之争。遗憾的是，近一年越来越多的AI4Science工作选择不开源，连学术界都不例外。这呼吁我们重新探讨重点为可重复性的出版标准。这种讨论对于指导科学界负责任且有效的共享至关重要。毕竟AI相关的领域就是凭借着开源才一直高速发展的。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

回顾2023一年的AI4Science，组织者们将七大学科分了分类，其中物理，化学材料，生物和医药的发展日益成熟，慢慢与实验结合并且逐渐走向商业化。

物理

处理完首张黑洞照片后，AI又帮助人们识别了高能中微子信号。

IceCube团队使用机器学习模型分析来自IceCube Neutrino Observatory的数据，区分信号和背景数据，这使得高能中微子从银河平面的发射被以前所未有的精确度检测到。研究使用卷积神经网络进行事件选择，其高速推理（几毫秒）能力使得研究者可以采取更为复杂的事件筛选策略。

通过十年的观测数据，机器学习模型不断完善，学会了在宇宙噪声的背景下精准地锁定中微子的特征。这些发现揭示了具有4.5西格玛重要性的中微子发射，强调了银河系内潜在的来源。

在这一背景下，机器学习的创新使用不仅增强了天文台的检测能力，而且为未来的天体物理探索提供了模式。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

化学与材料

AI在化学材料的各个领域大放异彩。在自动化化学和材料合成领域，如Koscher等人的研究以及Szymanski等人的A-Lab项目展示了人工智能与物理世界之间的桥梁。这些项目通过自动化实验室和基于云的方法，发现了新的染料分子和无机材料。

在大型语言模型的应用方面，如Coscientist和ChemCrow项目利用LLM规划实验，实现了与互联网、模型和实验设备的交互，展示了LLM在自动化任务和复杂实验室操作中的巨大潜力。

此外，DeepMind的GNoME团队通过机器学习的方法预测了大量的材料候选者，展示了深度学习在材料科学中的应用。

最后，像MIT和Cornell的研究团队开发的OA-ReactDiff扩散模型，在化学反应的过渡状态搜索方面取得了重要进展，提供了一种比传统方法更快更有效的替代方案，并能探索未预期的反应路径，助力新催化剂的发现和复杂反应的研究。（参看：AI炼金术革新化学：MIT学者使用生成式AI，六秒生成新化学反应）

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

生物

领域聚焦到理解蛋白质与其他生物小分子和大分子的相互作用。

其中，RosettaFold-AA和AlphaFold-latest作为两个杰出的代表，不仅仅局限于蛋白质结构预测，还扩展到预测蛋白质与小分子、蛋白质、核酸等生物分子的相互作用。

除了对静态的蛋白结构的研究，大家的也将目光聚焦在了研究蛋白构象空间，比如AF-Cluster通过改变多序列比对来控制AlphaFold输出不同构象。

相对于对蛋白质结构和功能的理解，蛋白质设计专注于设计新的蛋白质或修改现有蛋白质以实现特定的结构和功能。

在几何深度学习和生成式AI领域（特别是扩散模型）取得进展的基础上，RFDiffusion和Chroma提出了包含空间对称性（旋转、平移和反射）的扩散模型，用于生成新蛋白质。

除了从头设计外，他们还提出了灵活设计和优化蛋白质的方法，比如基于结合靶标，功能，结构的条件，以及基于模型提供指导的结构或功能优化。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

医药

AI在医药学方面的应用已经充分结合实际应用场景并趋于工程化。

Moor等人提出了一种通用医学人工智能（GMAI），该系统能够解释多模态数据，如影像学、电子健康记录、实验室结果、基因组学、图形或医学文本。GMAI以自监督方式在大规模、多样化的多模态数据上进行预训练，并能够执行多样化的医学应用。（参看：斯坦福大学教授 Jure Leskovec：基础模型在全科医学人工智能中的应用潜力）

Singhal等人策划了一个在医学领域的大规模问答数据集，并提出了基于PaLM（Google的大型语言模型）的医学领域大型语言模型，也被称为Med-PaLM, 并首次作为AI模型通过美国医学执业考试。

几个月后，同一组作者提出了Med-PaLM的第二个版本（Med-PaLM 2）。如图所示，Med-PaLM 2取得了显著的里程碑（86.5% (Med-PaLM2)，67.2%（Med-PaLM）），成为第一个达到与人类专家相媲美的水平，能够回答USMLE风格问题。医生们注意到该模型在回答消费者医学问题的长篇答案方面有显著的改进。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

同时，AI4Science也在一些领域，比如数学理论，地球科学和神经科学开辟了新的赛道并在高速发展。

数学理论

今年，LLM开始发现新的理论和算法。DeepMind的一项最新研究（FunSearch）展示了LLM用于发现解决复杂组合问题的新程序的潜力。FunSearch的主要目标是找到更好的程序来解决难题。（参看：Nature 速递：利用大模型程序搜索产生数学发现）

具体来说，它采用了一种在预训练LLM和评估器之间的迭代和进化过程。在这个过程中，进化算法从程序池中选择最佳程序候选，输入到LLM中进行改进。然后，修订后的程序被评估、打分，并重新放回池中。在这个进化过程中，提出了更好和新的程序。他们验证了FunSearch在两个组合优化问题——cap set和在线装箱问题上的有效性，FunSearch找到了比已知最佳解决方案更好的解决方案。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

地球科学

AI技术实现了在天气预测这一传统上极具挑战性的任务突破性的进展。

项目如ClimaX、GraphCast、Pangu-Weather、MetNet-3和PreDiff利用了数十年的历史天气数据和数值物理模拟结果，推动了在短期和中期天气预测方面的高分辨率时空预测技术。这些成就在很大程度上依赖于高性能计算资源和对大量数据的复杂处理。

特别值得一提的是，GraphCast通过其独特的“编码器-处理器-解码器”结构的图形神经网络，专门处理空间结构化的天气数据。而ClimaX则以其全球和区域范围的模型及通用基础模型而闻名，这些模型可以根据任意组合的输入变量预测任意时间点的天气情况。

除了天气预测，人工智能还在数据有限的地球科学领域取得了进展，例如地下结构、生物学和火山学。在这些领域，轻量级的人工智能代理模型正在替代传统的、计算密集型的数值物理模拟。这些模型不仅加快了预测速度，还提高了决策过程的效率。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

神经科学

AI从脑波中重建图像，为人类提供了深入了解大脑中的世界模型的机会。尽管这一任务一直极具挑战性，生成模型的创新（尤其是隐空间扩散模型）使得这一任务变得可能。

如果将大脑活动数据解释为“文本”，那么我们就能够生成基于脑活动数据的图像。令人惊讶的是，这一任务无需训练复杂的神经网络，只需使用预训练的稳定扩散模型，仅训练从脑数据到潜在向量和上下文向量的线性映射。

此外，AI还被用于理解神经活动和行为的对应。一种称作CEBRA的方法能够应用于基于假设和探索性的分析，并展示了表示在多次实验、动物和模态之间对神经活动解释的一致性。这一方法最小程度地利用神经编码中的时间结构，大大提升了结果的鲁棒性，有希望成为神经科学研究中的有力工具。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

未来的展望和挑战

最后，经历了2023年的疯狂，组织者们送上了他们对AI4Science在2024年发展的期望：

开源是加速科学发现的关键。开源强调可复制和降低各个领域之间的沟通壁垒。这在AI4Science这样的大融合的方向更为重要。2023年，我们注意到社区趋向于更加封闭。因此我们在迈向未来的路上，倡导AI4Science社群拥抱开源科学的理念。
某些AI4Science领域正从概念验证阶段转向实际应用，把我们的理论知识变成科学发现中的可靠工具。这是一个大挑战，不仅需要理念上的，还需要工程和教育上的努力以及资源的支持。相比于LLMs大众每天都可以看见的进展，由于科学偏“toB”的属性，AI4Science的商业化进程会缓慢很多。不过，这是深化和拓宽科学发现的必要步骤。人类对于科学的探索和转化本身就是一个没有终点的长跑，需要耐力和坚持！
想要解决科学领域的宏大挑战，需要跨多个领域的知识，而构建一个协作环境对于推进人工智能和科学研究至关重要。这也是我们AI4Science组织者希望给大家打造的环境。
随着社群的不断扩大，AI4Science工具被滥用的风险也在增长。在开发新的算法进步时，大家应该牢记伦理和安全问题。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

本文由部分AI4Science workshop组织者联合撰写：程立雪，杜沅岂，段辰儒，Ada Fang, 符天凡，高文昊，黄柯鑫，刘子鸣，罗迪，王莉晶（按姓名拼音排序）。更为详尽的英文原稿博客见：https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

大模型与生物医学：

AI + Science第二季读书会启动

生物医学是一个复杂且富有挑战性的领域，涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入，使得我们能够从前所未有的角度去观察和理解这个领域的问题，加速科学研究的步伐，提高医疗服务的效率和效果。这种交叉领域的合作，标志着我们正在向科技与生物医学深度融合的新时代迈进，对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。
集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩，华盛顿大学博士研究生屠鑫明，共同发起以“大模型与生物医学”为主题的读书会，共学共研相关文献，探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

大模型与生物医学：AI + Science第二季读书会启动

人工智能与数学读书会启动

数十年来，人工智能的理论发展和技术实践一直与科学探索相伴而生，尤其在以大模型为代表的人工智能技术应用集中爆发的当下，人工智能正在加速物理、化学、生物等基础科学的革新，而这些学科也在反过来启发人工智能技术创新。在此过程中，数学作为兼具理论属性与工具属性的重要基础学科，与人工智能关系甚密，相辅相成。一方面，人工智能在解决数学领域的诸多工程问题、理论问题乃至圣杯难题上屡创记录。另一方面，数学持续为人工智能构筑理论基石并拓展其未来空间。这两个关键领域的交叉融合，正在揭开下个时代的科学之幕。

为了探索数学与人工智能深度融合的可能性，集智俱乐部联合同济大学特聘研究员陈小杨、清华大学交叉信息学院助理教授袁洋、南洋理工大学副教授夏克林三位老师，共同发起“人工智能与数学”读书会，希望从 AI　for　Math，Math　for　AI 两个方面深入探讨人工智能与数学的密切联系。

详情请见：

人工智能与数学读书会启动：AI for Math，Math for AI

计算神经科学读书会

人类大脑是一个由数以百亿计的神经元相互连接所构成的复杂系统，被认为是「已知宇宙中最复杂的物体」。本着促进来自神经科学、系统科学、信息科学、物理学、数学以及计算机科学等不同领域，对脑科学、类脑智能与计算、人工智能感兴趣的学术工作者的交流与合作，集智俱乐部联合国内外多所知名高校的专家学者发起神经、认知、智能系列读书会第三季——「计算神经科学」读书会，涵盖复杂神经动力学、神经元建模与计算、跨尺度神经动力学、计算神经科学与AI的融合四大模块，并希望探讨计算神经科学对类脑智能和人工智能的启发。读书会从2024年2月22日开始，每周四19:00-21:00进行，持续时间预计10-15周，欢迎感兴趣的朋友报名参与，深入梳理相关文献、激发跨学科的学术火花！