Nat. Commun. | 机器学习注释基因功能

1,259次阅读
没有评论

点击蓝字 关注我们

AItellU

编者 | 刹那芳华

制版 | 戈戈

Nat. Commun. | 机器学习注释基因功能

第一作者:Gi Bae Kim

通讯作者:Sang Yup Lee

第一单位:韩国科学技术

DOI:10.1038/s41467-023-43216-z

1

全文一句话速览

本文开发深度学习模型DeepECtransformer,利用Transformer作为神经网络结构来预测未注释基因的酶学委员会(EC)编码,并通过实验验证了三种蛋白质(YgfF、YciO和YjdM)的酶活性预测

2

研究背景

酶在生物体内催化各种反应中起着关键作用,理解酶的功能对于理解代谢过程十分重要。EC编码系统基于酶的功能进行分类,已经开发了深度学习模型来预测酶的EC编码。本文着重介绍了一个名为DeepECtransformer的深度学习模型的开发和评估,该模型利用Transformer层来有效预测各种酶的EC编码。DeepECtransformer模型在大型酶序列数据集上进行了训练,并表现出优于其他方法的性能。它还证明了纠正UniProt知识库中的错误注释的能力。

3

全文亮点

1. DeepECtransformer能够有效地预测各种酶的EC编号,并且在性能上优于其他方法

2. 能够纠正UniProt Knowledgebase中错误的EC编号,并学习识别酶序列中的重要区域

4

图文解析

DeepECtransformer的开发和评估

DeepECtransformer的网络架构,包括两个transformer编码器、两个卷积层和一个线性层(图1a)。通过对酶的氨基酸序列进行预测,该神经网络可以预测酶的EC编号。

在评估方面,作者使用了一个测试数据集,将DeepECtransformer与DeepEC和基于同源搜索的工具DIAMOND进行了比较。结果显示,DeepECtransformer在精确率、召回率和F1分数方面表现优秀,并且对于与训练数据集中的序列相似度较低的酶,其预测性能更具优势(图1b-d)。此外,DeepECtransformer还能够纠正UniProt Knowledgebase中误注的EC编号。

Nat. Commun. | 机器学习注释基因功能

图1 DeepECtransformer的网络结构和神经网络的预测性能

人工智能学习酶的功能区域

作者使用了DeepECtransformer神经网络模型的自注意力层来识别酶的功能区域,并观察了模型在分类酶功能时所关注的区域。结果显示,AI能够有效地检测到一些功能区域,如活性位点和配体结合位点,以及一些已知的功能域,如Pfam域(图2)。这些发现有助于增进我们对酶功能的理解,并且可能有助于发现以前未知但关键的酶功能特征。

此外,作者还通过使用DeepECtransformer模型预测E. coli中未知蛋白质的功能,并通过体外酶活性实验证实了预测的酶功能。这表明DeepECtransformer不仅能够快速为越来越多的DNA序列注释酶功能,还能够发现以前未知的蛋白质的代谢功能。

Nat. Commun. | 机器学习注释基因功能

图2 通过DeepECtransformer神经网络突出显示氨基酸残基

大肠杆菌菌株等位基因代谢功能分析

使用DeepECtransformer模型和DIAMOND算法对1122个E. coli菌株的312,274个蛋白进行EC编号预测,以评估DeepECtransformer在预测不同菌株之间代谢功能变化的能力(图3a,b)。通过比较DeepECtransformer和DIAMOND的预测结果,发现在总体上有68.87%的基因的至少90%的等位基因在两种方法中具有相同的预测结果。

值得注意的是,通过分析预测结果不一致的基因,可以分析这些突变如何影响它们的代谢功能(图3c,d)。例如,本文报道了arol基因的若干等位基因发生了额外的代谢功能变化。这些观察结果从代谢角度为这些菌株的进化轨迹提供了宝贵线索。

Nat. Commun. | 机器学习注释基因功能

图3 1122株大肠杆菌312274个等位基因EC数预测结果

发现大肠杆菌k-12 MG1655中酶的未知功能

在 E. coli K-12 MG1655 的 y-ome 即功能未知区域中共有1600个基因。利用DeepECtransformer,从这些基因中成功预测了464个蛋白质的EC编号,并有390个蛋白质预测到了完整的四位数EC编号(图4a)。相比之下, DeepEC预测了82个蛋白质的EC编号,其中71个被预测为完整的四位数,而与其相关的UniProt数据库为这71个蛋白质提供了注释。这些结果表明DeepECtransformer能够准确预测酶功能,特别是对于功能尚未完全了解的基因。此外,通过分析模型预测中的重点区域,如活性位点或辅因子结合位点,揭示了DeepEC-transformer熟练识别酶序列中的重要区域的能力。最后,通过实验验证了模型预测的三个蛋白质(YgfF,YciO和YjdM)的酶活性(图4b),并证明了DeepECtransformer快速注释酶功能以及发现前所未知蛋白质代谢功能的能力。

Nat. Commun. | 机器学习注释基因功能

图4 大肠杆菌K−12 MG1655 y-ome蛋白的EC编号预测结

5

通讯作者介绍

Sang Yup Lee,韩国科学技术院化学与生物分子工程系教授。研究方向:1.代谢工程;2.蛋白质工程;3.生物高分子材料;4.基因组学;5.生物信息学。

6

编者有话说

DeepECtransformer算法通过结合深度学习和Transformer层来预测编码酶的功能注释。该算法使用神经网络和同源搜索两个预测引擎,其中神经网络利用Transformer架构从酶的氨基酸序列中提取潜在特征来预测EC编号。通过对酶的重要功能区域进行分析,DeepECtransformer还能够识别如活性位点和辅因子结合位点等。利用该算法,可以快速注释酶功能,发现以前未知的蛋白质代谢功能,并通过实验验证预测的酶功能。总的来说,DeepECtransformer算法在酶编码基因的功能注释中具有重要的作用。

转载须知

原创文章】AItellU原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为AItellU所有。AItellU保留所有法定权利,违者必究。

Nat. Commun. | 机器学习注释基因功能

投稿、转载及合作邮箱:

zjhuangjunjie@163.com

原文链接:

https://www.nature.com/articles/s41467-023-43216-z

点击下方蓝字阅读原文

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...