三支利箭,破局“AI数据稀缺”黑洞

1,400次阅读
没有评论

三支利箭,破局“AI数据稀缺”黑洞

三支利箭,破局“AI数据稀缺”黑洞

麦肯锡曾报道,阻碍生命科学数字化和数据分析的三大障碍为:缺乏高质量的数据源和数据集成、缺乏跨学科人才,以及缺乏大规模的技术采用。


前不久,行业媒体BiopharmaTrend联合创始人Andrii Buvailo,在其LinkedIn上发表了一项小型问卷调查,对“您认为生物技术行业采用人工智能面临的最大挑战是什么?”进行投票,共有四个选项:


A、缺乏特定领域的数据

B、数字基础设施成本

C、缺乏人工智能人才

D、投资回报率利益不明


三支利箭,破局“AI数据稀缺”黑洞


在此次调查中,共有88人参与投票,受访者多数为制药公司的高管、人工智能专家。其中52%的受访者选择了A选项,认为缺乏特定领域的数据是生物技术行业采用人工智能面临的最大挑战。


现实世界中的药物发现场景,有关化学和生物的数据可能是异质和稀缺的,专有数据或特定生物分析的研究的数据并不丰富,这限制了AI在新领域的应用。

针对AI在生物技术领域的数据稀缺问题,Andrii Buvailo给出了相应的解决方案,主要分三种:几何深度学习、零样本机器学习以及合成数据


三支利箭,破局“AI数据稀缺”黑洞

几何深度学习 


总部位于旧金山的“科技生物”公司 Atomic AI 开发了一种工具来解决 RNA 结构数据缺乏的问题。 


Atomic AI 专有的人工智能驱动的 3D RNA 结构引擎(称为PARSE)可生成 RNA 结构数据集,将机器学习基础模型与大规模内部实验湿实验室生物学相集成,以揭示 RNA 靶标的功能结合物。


该公司的技术能够以前所未有的速度和准确性预测结构化、可配体的 RNA 基序,这是当前 RNA 药物发现方法的一个关键障碍。


Atomic AI 计划利用其发现和设计3D RNA 结构数据库来开发一系列合理设计的小分子候选药物。


有趣的是,Atomic AI 使用几何深度学习,可以从非常小的 RNA 数据中学习。


什么是几何深度学习?


几何深度学习是机器学习的一个子领域,它将传统的神经网络方法推广到非欧几里得领域的数据,例如图、流形和复杂网络。它试图通过其固有的几何结构和关系来理解数据。


该方法被称为原子旋转等变评分器 (ARES)称其能有效解决RNA结构预测难题。即使只对 18 种已知 RNA 结构进行训练,其性能也超越了现有技术。ARES 从最少数据中学习的能力解决了典型深度神经网络面临的重大挑战。


由于该方法仅依赖于原子坐标且不依赖于 RNA 特异性细节,因此在结构生物学、化学和材料科学等各个领域具有潜在的应用。


根据这篇《科学》论文,ARES 的运行没有关于结构模型准确性的基本特征的任何预定想法。它没有对双螺旋、碱基对、核苷酸或氢键的任何固有理解。ARES 的方法并不只适用于 RNA,它可以应用于任何分子系统


ARES网络的初始阶段不是预先定义的规范,而是专门用于检测结构模式,在训练期间学习其身份。每一层都会考虑相邻原子的空间排列和前一层的结果来计算每个原子的各种特征。初始层的唯一输入是每个原子的 3D 坐标和化学元素分类。


三支利箭,破局“AI数据稀缺”黑洞

零样本学习

加拿大公司 Absci 展示了解决生物学数据问题的另一种方法,该公司专注于使用人工智能设计抗体。 


Absci 声称第一个使用零样本机器学习来制作和验证治疗性抗体的公司,开创了药物开发生成人工智能的里程碑 。


什么是零样本?


这是一种机器学习方法,模型在某些数据类别上进行训练,然后能够对全新的、未见过的类别进行预测或分类,通常利用已知和未知类别之间的关系。


例如,如果在马的图像上进行训练,该模型可能能够识别斑马,即使它尚未在斑马图像上进行明确的训练。


在 Absci 的案例中,抗体被设计为锁定某些目标,而无需针对这些目标的已知抗体提供任何事先训练数据。


Absci 的零样本模型产生与现有抗体数据库不同的抗体配置,涵盖所有三个重链 CDR (HCDR123) 的从头版本,这是对靶标结合最关键的抗体区域。


这种方法的效率如何?


在针对超过100,000种抗体的测试中,Absci 的成功率比既定的生物学基准高出5至30倍

三支利箭,破局“AI数据稀缺”黑洞

合成数据


应用合成数据来缩小真实数据稀缺领域的数据差距,是一个相当创新的概念。


什么是合成数据? 


合成数据是人为制造的信息,而不是由现实世界事件生成的信息,但它具有与真实数据类似的概率分布。因此,它可以像真实数据一样用于训练机器学习模型。 


例如,有证据表明,最先进的合成数据模型甚至可以生成高维和复杂的基因组和表型数据的人工版本。

初创公司Gretel.ai的研究人员与全球领先的基因测序公司 Illumina 合作,正在研究生成真实世界基因组数据集的合成版本的可能性。


Gretel 制作的合成数据保留了原始数据集的结构,同时确保增强的隐私性,允许研究人员开放访问而不会危及患者的机密性。因为数据是人工生成的,并不对应于现实世界中的任何特性个体。


据 1,220 只小鼠样本的初步研究结果,表明合成数据有可能彻底改变基因组学中的数据共享


Gretel 及其合作者的目标是在未来进一步完善合成基因组学数据的可扩展性、准确性和隐私性。


最后,除了基因组数据外,凡是需要“大量数据出奇迹”的领域,合成数据都代表着强大的解决方案。


—The End—


推荐阅读

三支利箭,破局“AI数据稀缺”黑洞三支利箭,破局“AI数据稀缺”黑洞三支利箭,破局“AI数据稀缺”黑洞三支利箭,破局“AI数据稀缺”黑洞

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...