AlphaFold出现两年后,DeepMind团队又开发了名为 AlphaMissense 的AI模型,可以识别致病的错义突变和未知致病基因。
AlphaMissense总共分析了 7100万 个可能的错义突变,并对其中的 89% 进行了分类,其中有 32% 可能是致病的,另外 57% 则可能为良性的。
9月19日,该成果“Accurate proteome-wide missense variant effect prediction with AlphaMissense”为题登上了Science期刊。
分类7100万个“错义”突变
错义突变是指由单个核苷酸点突变引起蛋白质一个氨基酸的变化。错义突变可以使生成的蛋白质失去功能,它们可能导致囊性纤维化、镰状细胞贫血或癌症等疾病。
每个人平均携带超过 9,000 个错义突变,并非所有的错义突变都会导致明显蛋白质变化。一种氨基酸可能被化学性质非常相似的氨基酸取代,这种情况蛋白质可能仍能正常发挥作用,这被称为良性突变。
少数突变会治病,但揭示致病突变的实验昂贵且费力,每种蛋白质都是独特的,每个实验都必须单独设计,这可能需要几个月的时间。
在人类基因组中已发现的超过400万种错义突变中,只有 2% 被专家注释为致病性或良性。
AlphaMissense成功预测人类蛋白质的2.16亿种可能的单一氨基酸变化的致病性,得到了7100万个错义突变的预测。
AlphaMissense对7100万个可能性中的89%进行分类,其阈值在已知疾病突变数据库中的精确度达到了90%。在分类的89%中,有57%被预测为良性,剩下32%则可能是致病性的。
相比之下,只有 0.1% 得到了人类专家的确认。
图:AlphaMissense和人类专家的预测对比
致病性或良性:如何对变异进行分类
为了训练 AlphaMissense,DeepMind在标签上对 AlphaFold 进行了微调,以区分人类和密切相关的灵长类动物群体中发现的变异。
DeepMind 的研究和副总裁 Pushmeet Kohli 表示,AlphaMissense 并没有确定突变的结构影响,而是利用 AlphaFold 对结构的“直觉”来识别蛋白质中可能发生致病突变的位置。
也就是说,AlphaMissense的输出是致病性评分,它反映了突变导致疾病的可能性,而不是蛋白质结构的预测变化。它不能预测突变后蛋白质结构的变化或对蛋白质稳定性的其他影响。
相反,它利用相关蛋白质序列和变体结构背景的数据库来产生 0 到 1 之间的分数,大致评定变体致病的可能性。连续评分允许用户选择符合其准确性要求的阈值,将变异分类为致病性或良性。
图:AlphaMissense 如何对人类错义变体进行分类
AlphaMissense 结合了结构上下文和蛋白质语言建模,并在人类和灵长类动物变异群体频率数据库上进行了微调。
AlphaMissense 还整合了一种受 ChatGPT 等大型语言模型启发的神经网络,并在人类和灵长类动物变异群体频率数据库上进行了微调。
DeepMind 研究科学家 Ziga Avsec称,它们对于变异预测很有用,因为它们已经了解了哪些序列是合理的,哪些是不合理的。
尽管其他人工智能驱动的语言模型在所谓的变体效应预测中也显示出前景,例如加州大学旧金山分校的一个小组今年早些时候在Nature Genetics上发表了他们自己的预测模型。
其他人工智能驱动的语言模型在所谓的变体效应预测中也显示出前景。例如,加州大学旧金山分校的一个小组今年早些时候在Nature Genetics上发表了他们自己的预测模型。
在测试中,当用于对 ClinVar(人类突变与疾病之间关系的公共数据档案)的突变进行分类时DeepMind的研究显示出优于其他预测模型。
图:AlphaMissense 在预测错义变异效应方面优于其他计算方法
一大进步,但影响有限
目前,DeepMind已将 AlphaMissense 的预测免费提供给科学界。还有一个扩展数据集,包含19223种标准人类蛋白质中的所有2.16亿个可能的单氨基酸置换。
DeepMind表示,期待看到 AlphaMissense 如何帮助解决基因组学和整个生物科学的核心悬而未决的问题。
研究人员称,这可能会对开发新药产生间接影响,这些致病性预测可以帮助提高罕见疾病的诊断率并发现新的致病基因。
同一时间发表的Science评论文章中指出,尽管可用于预测错义变异效应的方法越来越多,但它们的临床影响仍然有限。它的影响不会像 AlphaFold 那样显着,AlphaFold 开创了计算生物学的新时代。
目前,根据美国医学遗传学和基因组学学院和分子病理学协会的建议,计算预测可用于遗传诊断的程度很小,仅提供“支持”证据。
AlphaMissense 将“可能致病”或“可能良性”,但突变致病性的概念非常复杂,和临床上不能等同。
由于遗传背景或环境,这意味着并非所有携带“致病性”等位基因的人都会表现出临床疾病。
但这项工作无疑有助于变异解释和优先级排序,随着计算方法和解释策略的进步,未来它们在该领域的效用将继续提高。
参考链接:
https://www.deepmind.com/blog/alphamissense-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases
https://www.science.org/doi/full/10.1126/science.adg7492
https://www.science.org/doi/10.1126/science.adj8672
—The End—
推荐阅读