基于扩散模型的DNA序列设计

1,344次阅读
没有评论

今天为大家介绍的是来自Guy-Bart Stan和Yiren Zhao团队的一篇论文。虽然生成对抗网络(GANs)在DNA生成领域得到了广泛关注,但它们常常面临样本多样性有限和模式崩溃的问题。与此相反,扩散模型作为一种新兴的生成模型类别,没有这些问题,并已在图像生成等领域达到最新水平。鉴于此,作者提出了一种新的潜在扩散模型,DiscDiff,专门用于离散DNA序列的生成。通过使用自动编码器将离散DNA序列嵌入到连续的潜在空间,模型能够利用连续扩散模型的强大生成能力来生成离散数据。

基于扩散模型的DNA序列设计

合成DNA序列设计传统上是基于广泛的实验室实验得出的特定生物数据的工作。随着这些工作产生的数据量增加,深度生成模型在合成DNA序列生成的新领域中展现出巨大潜力。生成对抗网络(GANs)在合成DNA序列的生成中是一种流行的选择,已有多项研究证明它的功效。尽管GANs能有效地生成序列,但研究显示这些生成的样本缺乏多样性,并在训练时遭受模式崩溃的问题。鉴于扩散模型在图像生成、蛋白质合成和电路设计方面的成功应用,将其应用于DNA序列生成可能会产生更高质量的序列。在这“质量”指的是序列的多样性以及捕捉基础分布/基序的能力。在此项工作中,作者提出了一种用于离散数据生成的潜在扩散模型,并将其应用于DNA序列生成。

DiscDiff模型部分

基于扩散模型的DNA序列设计

图 1

基于扩散模型的DNA序列设计

图 2

作者介绍了一种名为DiscDiff的灵活潜在扩散模型,专为离散数据生成而设计。该模型由两个主要组成部分构成:一个自编码器函数和一个去噪模型。转换函数采用轻量级的变分自编码器(VAE)实现,其中编码器将DNA输入转换为连续的潜在变量 z,解码器则将 z 还原回其离散DNA形式。去噪模型被用于从噪声中学习恢复潜在变量z。在训练过程中,自编码器函数和去噪模型的学习阶段是分开的。第一阶段专注于学习自编码器函数,其主要目标是最小化离散变量的重构损失。第二阶段则集中在训练去噪模型,旨在从噪声中恢复合理的潜在变量。模型的架构及详细信息见图1,2。

实验部分

基于扩散模型的DNA序列设计

图 3

基于扩散模型的DNA序列设计

图 4

基序分布:为了评估生成样本的质量,作者使用DiscDiff生成了50,000个哺乳动物和植物物种的DNA序列。它们的基序分布在图3中展示。图表显示了真实DNA序列和作者生成的启动子中TATA盒分布之间的一致性。此外,图4展示了训练过程中基序分布的演变。值得注意的是,虽然转录起始位点(TSS)周围的峰值分布趋于与真实DNA序列一致,但在经过200个训练周期后,背景分布似乎开始出现分化。这一趋势也被Fréchet重构距离(FReD)和Sei距离所捕捉。

基于扩散模型的DNA序列设计

图 5

基于扩散模型的DNA序列设计

表 1

空间分布距离:图5展示了在不同训练周期中,Fréchet重构距离(FReD)和Sei嵌入分布距离相对于训练集的变化情况。值得注意的是,这些度量与训练集显示出强烈的相关性:从第0周期到第200周期观察到分布距离急剧下降,随后逐渐稳定上升至第3000周期平稳。这一趋势凸显了使用单一数值指标衡量生成DNA序列质量的复杂性。作者将这些度量的上升(从第200周期到第3000周期)归因于基序分布的差异。即使随着训练时间的延长,转录起始位点(TSS)峰值的建模得到改进,基于嵌入的方法也倾向于优先考虑DNA序列的整体表达,而不是具体细节。然而,潜在分布距离仍然至关重要,因为它们有助于区分真实的DNA序列和随机或次优序列。根据表1,在比较变分自编码器(VAE)和DiscDiff时,VAE生成的示例在基序分布方面表现不太理想。

基于扩散模型的DNA序列设计

图 6

图6展示了50,000个生成的和真实DNA序列的染色质剖面。其中,y轴表示与每个剖面对应的序列数量。在这些剖面中,作者突出显示了数量最多的前10个剖面,并省略了细胞系名称以便于清晰呈现。生成序列(图6a)和训练数据(图6b)在分布和排名靠前的剖面方面有着惊人的相似性。值得注意的是,如H3K4me3、H3K27me3和H3K9me3等剖面占主导地位。H3Kxxme3标记与启动子活性密切相关,因为它们重塑染色质,使其更容易被转录因子(启动子调控的关键蛋白)访问。

编译 | 曾全晨

审稿 | 王建民

参考资料

Li, Z., Ni, Y., Huygelen, T. A. B., Das, A., Xia, G., Stan, G. B., & Zhao, Y. (2023). Latent Diffusion Model for DNA Sequence Generation. arXiv preprint arXiv:2310.06150.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...