Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

1,588次阅读
没有评论

蛋白质功能注释一直是生物学面临的关键挑战之一,在指导新型药物靶标发现中具有重要作用。然而,当前方法在注释那些仅有少量蛋白的功能家族时,仍面临“长尾问题”的严峻挑战。针对此问题,浙江大学药学院朱峰教授与阿里云李兆融工程师组成联合研发团队,在国际权威期刊Genome Biology发表研究工作,提出了一种名为AnnPRO的基于序列的多尺度蛋白质表征和混合深度学习框架的蛋白质功能注释新策略。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

研究背景

蛋白质是生命的基本组成单位,它们的功能决定了生物体的结构和活动。然而,目前只有很少一部分的蛋白质的功能是通过实验方法得到验证的,大量的蛋白质的功能还是未知的。因此,如何利用计算方法来预测蛋白质的功能,是生物学领域的一个重要而又困难的问题。

目前,已经有许多计算方法被开发出来,用于预测蛋白质的功能。这些方法主要可以分为两类:一类是基于序列相似性的方法,它们通过比较蛋白质的序列,来推断它们的功能;另一类是基于机器学习的方法,它们通过学习蛋白质的特征,来预测它们的功能。然而,这些方法都存在一个共同的问题,就是在预测那些功能类别较少的蛋白质时表现不佳。这是因为蛋白质在不同的功能家族中的分布是不均匀的,有些功能类别的蛋白质很多,而有些功能类别的蛋白质很少。这种数据分布导致了一个“长尾问题”,即少数的“头部”功能类别占据了大部分的蛋白,而大量的“尾部”功能类别只占据了少数的蛋白。这种“长尾问题”使得现有的方法在训练过程中,往往忽略了“尾部”功能类别的信息,导致它们在预测时,对蛋白的“尾部”功能的预测准确度很低。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图1. 蛋白质GO层级及数量

模型框架

为了解决蛋白功能预测中的“长尾问题”,一种新的蛋白功能预测方法AnnoPRO被提出。AnnoPRO的核心思想是利用多尺度的蛋白质表征方式,双路径的蛋白质编码网络,和基于LSTM的蛋白质解码模型,来实现对蛋白质功能的预测。具体来说,AnnoPRO首先将蛋白质的序列转换为两种不同的表示形式:一种是基于特征相似性的图像,它能够捕捉蛋白质特征之间的内在关联;另一种是基于蛋白质相似性的向量,它能够考虑蛋白质序列之间的全局关联。然后,AnnoPRO利用一个双路径的编码网络,分别对这两种表征进行编码,得到蛋白质的特征向量。这个编码网络是基于预训练的,即利用已知的蛋白质功能注释数据,来优化网络的参数。最后,AnnoPRO使用一个基于LSTM的解码网络,将蛋白质的特征向量作为输入,输出蛋白质的功能类别。这个解码网络是基于多标签的,即可以同时预测蛋白质属于多个功能类别的概率。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图2. AnnoPRO深度学习混合模型框架

模型效果

为了验证模型性能,研究者们使用了多个基准数据集,来与现有的方法进行比较。结果表明,AnnoPRO在所有的功能类别(生物过程,分子功能,细胞组分)上,都取得了最好的预测效果,显著优于其他的方法。特别是在“尾部”功能类别上,AnnoPRO的预测准确度有了显著的提升,达到了解决“长尾问题”的目标。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图3. AnnoPro 在不同层级上的性能比较

此外,AnnoPRO还能够成功地捕捉到由于序列变异导致的蛋白质功能变化,例如生长分化因子(GDFs)和热休克蛋白(HSPs)等。如下图所示,GDF8和GDF11之间只有三个氨基酸的差异,导致GDF8具有肝素(herprin)结合功能(GO:0008201),而GDF11的变异残基使其无法与FS288交互,因此失去了这一功能。AnnoPRO可以成功预测两种GDFs的所有GO家族。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图 4. 不同方法在GDFs的功能预测结果

AnnoPRO是一种基于深度学习的蛋白质功能注释新方法,它能够充分利用蛋白质序列的信息,提高蛋白质功能的预测能力。AnnoPRO的研究成果,为蛋白功能预测领域提供了一个新的思路和方法,也为相关的生物学研究,如新药靶点的发现,疾病机理的揭示等,提供了有力的支持。

参考资料

Zheng, L., Shi, S., Lu, M. et al. AnnoPRO: a strategy for protein function annotation based on multi-scale protein representation and a hybrid deep learning of dual-path encoding. Genome Biol 25, 41 (2024). https://doi.org/10.1186/s13059-024-03166-1

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...