Nature | 人类基因目录现状

524次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Piero Carninci 和Steven L. Salzberg团队的一篇综述。自从2001年人类基因组的初始版本发布以来,科学家们一直在努力鉴定人类基因组中的每一个基因。在过去的几年里,该目标已经取得了很大的进展,目前估计能编码蛋白质的基因数量将近20,000个,而且不断有新的编码不同蛋白质异构体的基因被发现。

Nature | 人类基因目录现状

人类基因组项目于1990年启动,其两个主要目标是分析人类DNA的结构,以及确定所有人类基因的位置。最近完成的从端粒到端粒的完整人类基因组测序和组装实现了第一个目标:完整无缺的DNA序列。然而,实现第二个目标比最初预期的要复杂得多。随着时间的推移,确定基因及其功能的任务增加了一个目标,即识别它们的调控机制。为了找到基因组中的所有功能元件,包括基因以及转录和转录后调控元件,国际组织级别的努力也已经开始。在早期的基因组观念中,基因组被视为基因的储存库,其中大多数基因被认为编码一个蛋白质编码的转录本。然而,如今我们知道情况并非如此,人类生物学可以受到数千种不同的替代转录本和未翻译成蛋白质的转录元件的影响,以及数十万个调控元件的影响。更复杂的是,我们现在知道许多转录的RNA分子进一步处理成可以具有与其亲本转录本不同功能的更小的RNA片段(图1)。

Nature | 人类基因目录现状

图 1

蛋白质编码基因

人类基因目录中包括的蛋白质编码基因,或者在参考蛋白质注释数据库如UniProtKB中捕获的编码基因,通常不仅有它们的翻译证据,而且在许多情况下,也有它们编码的蛋白质功能的证据。其主要证据可以包括直接的生化或分子实验,或者从科学文献中恢复的功能推断。一个基因产物的功能的直接观察,或者与其紧密相关的旁系的功能,提供了对该基因功能的分配和其作为蛋白质编码的注释的信心。此外,为大量脊椎动物物种生成高质量的基因组序列,以及开发具有识别在这些物种中进化保守的人类基因序列的能力的软件,以及来自质谱数据的翻译的间接证据,增加了我们对许多蛋白质编码基因确认的信心。

人类基因组计划的主要重点之一是在捕获序列本身之后,对蛋白质编码基因进行注释。虽然这种注释仍然不完整,但科学界正在接近对这些基因的身份达成共识。从1980年代最初估计的50,000-100,000个基因,估计的数量稳步下降,最初的人类基因组发布时降至30,000-40,000个,然后进一步降至20,000-25,000个,再到22,000个,现在是刚刚不到20,000个。一个最近的数据库发布建议尽可能少的基因数量,例如GENCODE Release 中的19,370个。这些基因标注的逐渐完善是通过一系列的研究进步实现的,包括全面的手动审核,计算注释方法和分析的改进,以及越来越多的高质量实验转录数据的生成。尽管总体上基因计数减少了,但蛋白质编码基因仍在继续被识别,以及已知基因的替代剪接形式。

MANE(来自NCBI和EMBL-EBI的匹配注释)合作项目最近发布了一份近乎完整的数据集,其中包含每个蛋白质编码基因的一个剪接变体(isoform),这些基因是两个主要的注释项目RefSeq和GENCODE一致审核同意。这个项目的次要目标是找到我们拥有多少个蛋白质编码基因的答案。MANE 1.0包含19,062个基因座位(gene loci),覆盖了主要人类基因目录中大约98%的经过策划的蛋白质编码基因,使我们比以往更接近人类基因组项目的中心目标之一。

作者提出了一些未来步骤来完成人类基因组中的蛋白质编码基因的注释:1.对每个蛋白质编码基因,开发一个全面的图景,了解其转录本及其在所有可用的组织和细胞类型中的表达水平,并确定其在其他物种中的保守性。2.对所有能折叠成稳定结构的蛋白质,确定它们的三维结构并评估它们的稳定性。3.确定转录起始和终止的所有替代位点,并记录在正常组织中每个位点的使用频率。4.标记导致非功能性蛋白质的所有可重复剪接事件。5.编目和强调许多违反正常规则的特殊案例,包括(1)双功能基因,其中两个不同的蛋白质编码基因出现在同一个转录本上;(2)硒蛋白,其中UGA可以编码硒蛋白,而不是作为终止密码子功能;(3)与最常见的GT-AG,GC-AG和AT-AC位点偏离的非标准剪接位点;(4)使用除ATG之外的密码子作为起始密码子的编码序列;以及(5)极短的外显子,它们通常被当前的方法遗漏或错误理解

虽然我们接近达成对蛋白质编码基因集的共识,但准确注释的蛋白质剪接变体集仍然在变动中。确定这个数字一直面临着多个挑战。首先,现今的剪接变体的确定主要依赖于RNA测序(RNA-seq)数据的组装,而这又依赖于拥有所有细胞类型中所有基因的完整样本,包括那些在早期发育过程中普遍存在的细胞类型。例如,GTEx项目已经调查了大量的组织,但仍然只涵盖了一部分细胞类型。项目如人类细胞图谱旨在识别所有人类细胞类型的特异性RNA,但仍有很多工作要做。其次,计算方法并不总是能够从大型、复杂的RNA-seq数据集中一致地产生相同的剪接变体,部分原因是短读取RNA-seq不足以无歧义地确定完整的剪接结构。第三,即使有些剪接变体在RNA-seq实验中可重复出现,许多可能不会编码功能性蛋白质。第四,人类群体中的遗传变异可能引入剪接变体,这些变体只会在我们序列化更多个体人类样本的时候才能被编目。

伪基因是另一个主要的挑战,除了识别基因和剪接变体本身外,还需要确定哪些基因样的元素是伪基因。伪基因是代表基因缺陷副本的序列。人类基因组上已经注释了超过14,000个伪基因。它们可以分为三种类型:加工型(在逆转座过程中去除内含子)、非加工型(在复制过程中保留内含子)和单一型(在人类中没有功能对应物的伪基因)。近期使用长读取技术的证据表明,一些先前注释的伪基因实际上可能是功能性的,而其他报告则表示,一些伪基因继续被翻译,尽管其蛋白质可能不是功能性的。

非编码RNA基因

非编码RNA(ncRNA)基因包括一系列不同的RNA分子,它们是从DNA转录出来的,不编码蛋白质,并且在细胞中提供功能。目前研究人员已经描述了许多不同的ncRNA亚类,包括定义为至少200个核苷酸的长ncRNAs(lncRNAs),以及许多类型的短ncRNAs,如microRNAs等。请注意,虽然在不同的细胞和条件下可能转录许多非功能性RNA序列,但作者定义只有在它们在细胞或有机体水平上具有可辨别的功能时才将它们称为基因。与编码蛋白质的基因类似,lncRNAs的功能需要通过揭示它们的生化或分子功能的初级实验证据来确定,然而,与编码蛋白质的基因不同,我们尚不清楚是否可以通过比较旁系来推断功能,这是因为我们对大多数lncRNAs的作用机制了解有限,以及由于某些lncRNAs包含来自逆转座子的嵌入序列。在近期,大多数注释工作将继续努力全面编目ncRNA转录本,无论它们的功能状态如何。尽管不能用寻找保守的蛋白质序列的策略来表征ncRNAs,但高通量的RNA-seq实验为这些基因的转录提供了丰富的证据。与编码蛋白质的RNA相比,通过RNA-seq鉴定的ncRNAs似乎相对稀少,这引发了一个问题,它们是否编码功能元件,或者只是代表转录噪声。关于ncRNA基因的更大问题是,它们究竟做什么,已经我们描述了许多可能的功能,包括调节其他基因的表达、剪接、染色质结构、表观遗传调节、癌症和其他疾病的失调等等。当前目录中的lncRNA基因注释的概要显示在表1中。两个最广泛使用的是RefSeq和GENCODE,它们都涉及人类注释员,以及大规模的cDNA和RNA-seq资源,来确定包括哪些ncRNA基因。与此同时,各种联盟和个别研究实验室提供了宝贵的额外资源。这些注释数据库之间的重叠相对较低,说明我们距离对ncRNA基因的鉴定达成共识还有很长的路要走。尽管这种相对零散的景观仍然取得了令人印象深刻的成就,绘制出了ncRNA基因的巨大多样性。

Nature | 人类基因目录现状

表 1

有各种证据表明,ncRNA目录在许多方面仍不完整,目前对ncRNA基因的真实数量以及转录体异构体的真实数量尚未达成一致。这些问题来源于多种因素。首先,大多数ncRNAs来源的转录组数据集是从一组不全面的组织/细胞类型中获得的,这些类型主要由成人器官、细胞系和肿瘤过度代表。稀有但重要的细胞类型(如组织干细胞)或难以进入研究的发育时点(例如胚胎阶段)代表不足。这导致对现有基因座和转录体异构体的不完全采样。其次,大多数转录组数据是使用oligo-dT逆转录RNA产生的,这会遗漏那些较少研究的转录本,如环形RNA。第三,不完全的cDNA逆转录会导致具有不准确5′端的转录模型,RNA降解可能导致碎片化的注释和错误的转录起始位点注释。

注释质量极大地影响了我们对RNA编码/非编码生物型的分类以及对其生物学角色的理解。有些被认为是“非编码”的基因座实际上编码了先前被忽视的蛋白质产物,这增加了非编码基因注释的复杂性。一小部分lncRNAs编码的“微肽”长度少于100个氨基酸,但它们在生物学上发挥着多种重要的功能。它们的小尺寸使传统的开放阅读框(ORF)发现流程变得困难,但可以通过核糖体剖析或使用PhyloCSF等方法,根据蛋白质保守性的进化特征来识别它们。尽管某些小ORF编码的微肽显示出明确的细胞表型,但大多数仍然未被功能性表征。特别是对于那些缺乏重要进化保守性的微肽,它们可能代表非功能性的“翻译噪声”,或者是新蛋白质的进化早期阶段。尽管可以使用质谱或核糖体剖析来检测从某些lncRNAs的翻译,但分配功能到任何这些微肽将需要进一步的生化验证。反过来,编码蛋白质的座位产生大量的非蛋白质编码转录体异构体,其中一些已经被证明是功能性的,例如MYH7b。编码和非编码之间的边界模糊将为未来的注释努力带来一种令人着迷的挑战。

在ncRNA(非编码RNA)注释的过程中,添加功能标签是最大的挑战之一。对于编码蛋白质的基因,我们有丰富的功能证据,还有强大的计算方法可以基于基因的主要序列预测其功能。相比之下,我们对大多数ncRNA知之甚少,也没有验证过的方法可以从序列中预测其功能。因此,ncRNA基因注释的一个近期目标将是描述支持它们的不同类型的证据(如组织特异性表达水平),尽管它们的功能可能仍然不清楚。目前,大多数ncRNA尚未经过适当的功能测定——在针对几百到几千个基因的初始筛选研究中,有10-40%的测试ncRNA显示出某种功能,包括对细胞形态和增殖的影响。扩大这些方法将需要协调性的大规模努力,包括在细胞模型中的批量测定和组织或类器官模型的单细胞测序分析。尽管如此,干扰某些ncRNA时观察到的微弱表型,它们的组织和细胞类型特异性,以及仍在不断发现的ncRNA数量的增加,都带来了巨大的挑战,这将需要新的技术来创建基因组规模的测定方法,以应对这些挑战。

健康与医学的注释

人类基因注释的关键应用是其在诊断和治疗遗传性疾病中的使用。已有超过5000个基因和其许多变体与单基因疾病和疾病风险相关联。在临床环境中评估变体的致病性时,基因和转录本模型的完整性和准确性是必不可少的。如Annovar和Variant Effect Predictor等程序确定的变体影响取决于转录本的预测开放阅读框(ORF)。此外,用于临床诊断试验的靶向捕获测序的寡核苷酸诱饵和PCR引物的设计取决于外显子边界的正确注释。即使在诊断时使用全基因组测序,临床医生也不会将未注释的外显子作为解释的候选。注释的缺陷可能导致临床上的严重错误。

当前,临床实验室通常使用RefSeq转录本作为报告已知疾病相关基因变体的参考,通常依赖于文献中的报告。当文献不清楚时,实验室倾向于使用简单的标准选择转录本。这种做法并不理想,因为所选转录本可能不反映临床诊断所需的特性,导致不同实验室之间的不一致。为了进一步解决这个问题,临床实验室通常仍然将变体数据映射到先前的参考基因组GRCh37上。为了实现基因组诊断的全部潜力,需要为每个编码蛋白质基因提供一个通用的转录本参考。2018年启动的MANE合作计划解决了这个需求,生成了一组代表性的参考转录本(MANE Select),用作通用的报告标准。对于少数基因,数据库提供了第二个标记为“MANE Plus Clinical”的转录本,当一个转录本单独不足以报告已知的临床变体时。MANE集现在覆盖了超过98%的人类编码蛋白质基因,并为临床重要的基因和转录本注释提供了合理的起点。但是,未来将ncRNA和调节元件的临床重要注释添加到MANE中会是有益的,至少是那些与与疾病风险相关的基因组变体相关联的。如果其他数据库将其内容映射到MANE标准,临床解释和报告也将受益。除了使用标准转录本报告变体外,实验室和数据库还需要使用标准化的遗传变体描述,以确保无歧义地映射到参考基因组。

参考资料

Amaral, P., Carbonell-Sala, S., De La Vega, F.M. et al. The status of the human gene catalogue. Nature 622, 41–47 (2023). 

https://doi.org/10.1038/s41586-023-06490-x

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy