Cell2Sentence:教大型自然语言模型掌握生物学语言

1,406次阅读
没有评论

Cell2Sentence: Teaching Large Language Models the Language of Biology

D Levine,  S A Rizvi,  S Lévy,  N Pallikkavaliyaveetil…
[Yale University]

Cell2Sentence:教大型自然语言模型掌握生物学语言

要点:

  • 本文提出Cell2Sentence,一种将单细胞基因表达数据表示为文本序列的方法,称为“细胞句子”,可将自然语言处理模型应用于转录组学。
  • 细胞句子由每个细胞中基因按表达水平排序的基因名组成,这个排名转换保留了原始基因表达数据中的大部分信息。
  • 细胞句子可以用于微调预训练的语言模型,如GPT-2。以这种方式微调过的模型在给定提示的条件下可以生成逼真的细胞类型。
  • 与仅在细胞句子上训练相比,语言模型预训练可以提高细胞句子任务上的性能,模型可以生成、分类和恢复细胞的表达。
  • Cell2Sentence提供了一个简单的框架,使用现有的库(如HuggingFace Transformers)将语言模型适配到转录组学。它以模块化的方式在数据和细胞句子之间进行转换。
  • 在细胞句子上微调的模型与scVI等基线相比,生成和区分细胞类型的能力有所提高,自回归预测也从语言预训练中受益。
  • 潜在的应用包括生成细胞、识别标记、通过自然语言解释数据以及建模基因表达对扰动的影响。

动机:将大型语言模型应用于生物学领域,特别是单细胞转录组学,以便分析、解释和生成单细胞RNA测序数据。
方法:通过一种称为Cell2Sentence(C2S)的方法,将单细胞的基因表达数据表示为基因名的文本序列,通过表达水平进行排序。然后,使用预训练的语言模型如GPT-2对这些基因序列进行微调。
优势:通过自然语言预训练和C2S训练,模型在转录组任务上的性能显著提高。经过微调的模型可以根据基因序列生成生物学上有效的细胞,也可以根据细胞句子准确预测细胞类型标签。这表明使用Cell2Sentence进行微调的语言模型可以对单细胞数据进行生物学理解,同时保持生成文本的能力。

提出一种将单细胞转录组数据表示为文本序列,并使用预训练的语言模型进行微调的方法,从而使模型能够生成和解释单细胞数据,实现自然语言交互。

Large language models like GPT have shown impressive performance on natural language tasks. Here, we present a novel method to directly adapt these pretrained models to a biological context, specifically single-cell transcriptomics, by representing gene expression data as text. Our Cell2Sentence approach converts each cell’s gene expression profile into a sequence of gene names ordered by expression level. We show that these gene sequences, which we term “cell sentences”, can be used to fine-tune causal language models like GPT-2. Critically, we find that natural language pretraining boosts model performance on cell sentence tasks. When fine-tuned on cell sentences, GPT-2 generates biologically valid cells when prompted with a cell type. Conversely, it can also accurately predict cell type labels when prompted with cell sentences. This demonstrates that language models fine-tuned using Cell2Sentence can gain a biological understanding of single-cell data, while retaining their ability to generate text. Our approach provides a simple, adaptable framework to combine natural language and transcriptomics using existing models and libraries. Our code is available at: https://github.com/vandijklab/cell2sentence-ft.

https://www.biorxiv.org/content/10.1101/2023.09.11.557287v1 

Cell2Sentence:教大型自然语言模型掌握生物学语言
Cell2Sentence:教大型自然语言模型掌握生物学语言
Cell2Sentence:教大型自然语言模型掌握生物学语言

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...