推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

1,205次阅读
没有评论

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

  新智元报道  

编辑:桃子 好困

【新智元导读】大模型推理加速如何破局?普林斯顿、UIUC等机构华人团队提出一个简单框架Medusa,训练多个解码头,直接让LLM推理速度飙升2倍。


由于LLM架构固有的内存限制,使得生成又慢又贵。

对此,很多大佬都在寻找一种挽救的方法。Karpathy曾多次提出,大模型「投机采样」对于推理时间优化是一个出色的方案。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

但是,尽管投机解码能够加速生成速度,但因其太过复杂,并没有被许多开发者采用。

今天,来自普林斯顿、UIUC等机构的华人团队提出了全新的简单框架:Medusa(美杜莎)。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

没有额外的草稿模型,研究人员只是引入了几个额外的解码头,微调出「美杜莎头」,能够在单个A100-8G GPU,一天时间内完成训练。

结果发现,Medusa直接让模型推理加速约2倍。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Vicuna-7b与Medusa

为什么LLM生成效率低?


从系统角度来看,LLM生成遵循一种「以内存为限制」的计算模式,主要的延迟瓶颈来自内存读取/写入,而非算术计算。

这一问题的根源在于,自回归解码过程中固有的顺序性。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

即每次前向传递都需要将整个模型的参数,从高带宽内存(HBM)传输到加速器的计算单元。

尽管每个样本只产生一个token,但这个操作未能充分利用现代加速器的算术计算能力,由此导致模型效率低下。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

在LLM崛起之前,应对这种低效率的常见方法是,简单地「增加批大小」,从而实现更多token的并行生成。

但大模型的不断涌现,让情况变得更加复杂。

在这种情况下,增加批大小不仅会带来更高的延迟,还会大大增加Transformer模型的键-值缓存的内存需求。

此外,这种低效率也体现在「成本结构」上。

截止到2023年9月,与仅处理提示相比,GPT-4的生成成本约高出2倍,Claude 2的生成成本大约高出3倍。

研究人员主要关注的重点是,改善LLM生成的延迟,同时Medusa也可以适用于需要平衡延迟和吞吐量的LLM服务。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

每个token的价格

「投机解码」是终极解决方案?


基于上述的挑战,加速文本生成的一种吸引人策略是:更高效地利用计算资源。

具体来说,通过并行处理更多的token。

这种方法,采用了一个简化的「草稿」模型,每一步都能快速生成一批token的候选项。

然后,这些候选token将通过原始的、全尺寸的语言模型进行验证,以确定最合理的文本延续。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

这一基本逻辑基于一个有趣的假设:「草稿」模型虽然小,但应该足够娴熟,能够生成原始模型可以接受的序列。

如果这个假设成立,「草稿」模型可以迅速生成token序列,同时原始模型可以高效地并行验证多个token,从而最大化计算吞吐量。

最近的研究表明,通过精心调整的草稿模型,投机解码可以将延迟降低高达2.5倍,令人印象深刻。

然而,这种方法并非没有挑战:

1. 寻找理想的「草稿模型」(Draft Model):找到一个「小而强大」的草稿模型,与原始模型很好地协调,说起来容易,做起来难。

2. 系统复杂性:在一个系统中托管两个不同的模型会引入多层的复杂性,不论是计算还是操作,尤其是在分布式环境中。

3. 采样效率低:使用投机解码进行采样时,需要使用一种重要性采样方案。这会带来额外的生成开销,尤其是在较高的采样温度下。

这些复杂性和权衡限制了投机解码的广泛采用。因此,虽然投机解码前景广阔,但并未被广泛采用。

Medusa:将简单与高效融合


为了满足对更加用户友好,且功能强大的解决方案的需求,普林斯顿研究团队推出了创新框架Medusa(美杜莎)。

它不仅加速了模型的生成,甚至让LLM能够让更多人去访问和使用。

据介绍,最新方法重新回顾了「Blockwise Parallel Decoding for Deep Autoregressive Models」论文中,一个被低估的宝藏:

回溯Transformer模型的发明,与其引入一个全新的「草稿」模型来预测后续token,为什么不简单地扩展原始模型本身呢?

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

论文地址:https://arxiv.org/abs/1811.03115

这就是「Medusa head」(美杜莎头)发挥作用的地方。

这些额外的解码头与原始模型无缝集成在一起,在每个生成的关键点产生token块。

与草稿模型不同的是,Medusa head可以与原始模型一起训练,而原始模型在训练期间保持冻结状态。

这种方法允许研究人员在单个GPU上微调大模型,充分利用强大的基础模型学习到的表征。

此外,由于新的头仅由一个与原始语言模型头类似的层构成,因此Medusa不会增加服务系统设计的复杂性,并且适用于分布式环境。

单靠Medusa head,并不能达到将处理速度提高一倍的目标。

但这里有一个小技巧:将其与基于树状注意力机制配对使用时,就可以并行验证由Medusa head生成的多个候选项。

这样一来,Medusa head的预测能力速度提升2倍-3倍。

另外,研究人员摒弃了传统的重要性采样方案,专门为Medusa head生成创建了一种高效且高质量的替代方案。

种新方法完全绕过了采样开销,甚至进一步提升了Medusa的加速步骤。

简而言之,研究人员用一个简单的系统解决了投机解码的挑战:

1. 没有独立的模型:不是引入一个新的草稿模型,而是在同一个模型上训练多个解码头。

2. 轻松集成到现有系统中:训练参数效率高,即使是GPU性能较差的情况下也可以进行。而且由于没有额外的模型,无需调整分布式计算设置。

3. 将采样视为一种放松:放宽与原始模型分布相匹配的要求,使得「非贪心生成」甚至比「贪心解码」更快。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Medusa概述

具体来说,Medusa在LLM的最后隐藏状态之上引入了多个头,使其能够并行预测多个后续token。

在使用Medusa head扩充模型时,原始模型在训练期间被冻结,只有Medusa head经过微调。这种方法使得在单个GPU上对大型模型进行微调成为可能。

在推理过程中,每个头为其指定的位置生成多个顶级预测。这些预测被组合成候选项,并使用基于树状注意力机制并行处理。

最后一步是,使用典型接受方案选择合理的延续,被接受的最长候选项prefix将用于下一阶段的解码。

这样,Medusa通过同时接受更多token,从而减少所需的解码步骤,提高了解码过程的效率。

接下来,让我们深入了解Medusa的三个组成部分:Medusa head(美杜莎头)、tree attention(树状注意力机制)和典型接受方案。

Medusa head(美杜莎头)


那么,Medusa head究竟是什么呢?

它们类似于原始架构中的语言模型头(因果Transformer模型的最后一层),但有一个变化:它们预测多个即将出现的token,而不仅仅是下一个token。

受到块状并行解码方法的启发,研究人员将每个Medusa head作为单层前馈网络来实现,并增加了一个残差连接。

训练这些头非常简单。你可以使用训练原始模型的相同语料库,或者使用模型本身生成新的语料库。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

在这个训练阶段,原始模型保持不变;只有Medusa head经过微调。

这种有针对性的训练会带来一个参数效率极高的过程,并能迅速达到收敛。

尤其是,与在推测解码方法中训练独立的草稿模型的计算复杂性相比,优势更加突出。

在研究人员测试的Vicuna模型上,Medusa head在预测next-next token方面准确率达到60%,位列第一。同时,它仍然有改进的空间。

tree attention(树状注意力机制)


测试中,团队发现一些引人注目的指标:尽管对于预测next-next token的第1名准确率大约在60%左右,但第5名的准确率却超过了80%。

这个显著的提高表明,如果可以有效利用Medusa head产生多个排名靠前的预测,就可以增加每个解码步骤生成的token数量。

为了实现这个目标,研究人员首先通过从每个Medusa head的顶级预测中,获取笛卡尔积来创建一组候选项。

然后,根据图神经网络的思路,将依赖关系图编码到注意力机制中,以便可以并行处理多个候选项。

比如,使用第一个Medusa head的前2个预测,以及第二个Medusa head的前3个预测,如下所示。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

树状注意力

上图中的可视化效果,展示了使用树状注意力同时处理多个候选项的过程。

在这种情况下,第一个头的任何预测都可以与第二个头的任何预测配对,形成一个多级树结构。

这个树的每一层,都对应着一个Medusa head的预测。由此,能够产生2*3=6个候选项。

这些候选项中的每一个对应于树结构内的一个不同的分支。

为了确保每个token只访问其前置token,研究人员设计了一种注意力掩码,专门允许注意流从当前token返回到其前置token。

通过这样做,并相应地位位置编码设置位置索引,可以在不需要增加批大小的情况下,同时处理各种候选项。

研究人员还指出,一些研究也采用了非常相似的树状注意力思想。

与它们相比,最新的方法更倾向于一种更简单的树状注意力形式,在推理期间,树状模式是规则的且固定的,使得树状注意力掩码进行预处理,进一步提高了效率。

典型接受


在早期关于投机解码的研究中,「重要性采样」被用来产生与原始模型预测密切相关的各种输出结果。

然而,后来的研究表明,随着采样温度升高,这种方法的效率往往会降低。

简单来说,如果你的草稿模型和你原来的模型一样好,理想情况下,你应该接受它的所有输出,从而使这个过程变得超级高效。

然而,重要性采样可能会在中间环节,拒绝这个解决方案。

在现实世界中,我们经常调整采样温度,只是为了控制模型的创造力,不一定是为了匹配原始模型的分布。

那么为什么不把重点放在,可接受可信的候选项上呢?

对此,研究人员引入了「典型接受」方案。

从现有的截断采样(truncation sampling)中汲取灵感,普林斯顿研究人员目标是根据原始模型选择足够可能的候选项。

研究人员根据根据原始模型的预测概率设置一个阈值,如果候选项超过这个阈值,就会被接受。

用专业术语来说,研究人员采用硬阈值,以及熵相关阈值中的最小值,来决定是否像截断采样那样接受候选项。

这确保了在解码过程中,选择有意义的token和合理延续。

研究人员总是使用贪心解码接受第一个token,确保在每个步骤中至少生成一个token。最终输出是通过研究接受测试的最长序列。

这一方法的高明之处在于,适应性强。

如果你将采样温度设置为0,它就会恢复到最有效的形式——贪心解码。当温度升高时,最新研究的方法变得更加高效,可以接受更长的序列。

并且,研究人员还已经通过严格的测试证实了这一说法。

因此,从本质上讲,最新的典型接受方案提供了一种更有效的方式,让LLM进行更创造性地输出。

Llama「吐口水」可以有多快?


研究人员使用了专门针对聊天应用进行微调的Vicuna模型对Medusa进行了测试。

这些模型的大小不同,参数数量分别为7B、13B和33B。

研究的目标是,测量Medusa在实际聊天机器人环境中如何加速这些模型。

在训练Medusa head时,研究人员采用了一种简单的方法,使用了公开可用的ShareGPT数据集。这是最初用于Vicuna模型的训练数据的子集,仅进行了一个epoch的训练。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

而且,关键是,根据模型参数的大小,整个训练过程可以在几小时到一天之内完成,仅需要一块A100-80G GPU。

值得注意的是,Medusa可以轻松与量化的基础模型结合使用,以减少内存需求。

研究人员利用这一优势,在训练33B模型时使用了8位量化。为了模拟实际环境,他们使用了MT bench进行评估。

凭借其简单的设计,Medusa在各种用例中,始终能够实现约2倍的绝对时间加速。

值得注意的是,通过Medusa的优化,33B参数的Vicuna模型可以像13B模型一样迅速运行。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

消融实验


Medusa head的配置


在利用美杜莎头的预测能力时,研究人员灵活地选择了每个头应考虑多少个顶级候选项。

例如可以选择第一个头的前3个预测和第二个头的前2个预测。当对这些顶级候选项进行笛卡尔积运算时,就生成了6个延续选项供模型评估。

这种可配置性,是需要进行权衡的。

一方面,选择更多的顶级预测会增加模型接受生成token的可能性。另一方面,它还会增加每个解码步骤的计算开销。

为了找到最佳平衡,研究人员尝试了各种配置,并确定了最有效的设置,如附图所示。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

典型接受的阈值


在典型接受方案中,一个关键的超参数,称为「阈值」,帮助研究人员根据模型自身的预测,来确定生成的token是否合理。

阈值越高,接受标准越严格,从而影响通过这种方法获得的整体加速。

研究人员通过在MT bench的2个以创造力为导向的任务上进行实验,来探讨质量和加速之间的这种权衡。

图中显示的结果表明,与贪心解码方法相比,典型接受能够加速10%。这种加速明显优于使用随机采样的投机解码方法,后者与贪心解码相比实际减慢了过程。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

作者介绍


推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Tianle Cai(蔡天乐)


共同一作蔡天乐是普林斯顿大学的博士生,导师为Kai Li、Jason D. Lee。

就读博士期间,他在Xuezhi Wang和Denny Zhou指导下在Google DeepMind实习,还在Sébastien Bubeck和Debadeepta Dey的指导下在Microsoft Research完成了实习。

他曾在北大拿到了本科学位,主修应用数学,同时也主修计算机科学双学位,在Liwei Wang教授的指导下,开始了机器学习领域的研究。

蔡天乐的学术兴趣跨越了机器学习的广泛领域,包括优化、表征学习、架构设计(重点是Transfomer、图神经网络等),以及最近的系统架构协同设计。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Yuhong Li


共同一作Yuhong (Jesse) Li是伊利诺伊大学厄巴纳-香槟分校(UIUC)的ECE博士生,导师是Deming Chen教授。

此前,他在北京邮电大学获得了学士学位,兴趣是高效机器学习。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Zhengyang Geng(耿正阳)


Zhengyang Geng是卡内基梅隆大学(CMU)的计算机科学博士生,由J. Zico Kolter指导。

之前,他在北京大学做研究助理,由Zhouchen Lin指导。致力于识别和开发能够自组织复杂系统的结构。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Hongwu Peng


Hongwu Peng是康涅狄格大学计算机科学与工程系的博士生。

此前,他于2018年获得华中科技大学电气工程学士学位,于2020年获得阿肯色大学电气工程硕士学位。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

Tri Dao


Tri Dao是生成式AI初创公司Together AI的首席科学家。2024年9月起,将出任普林斯顿大学计算机科学助理教授。

此前,他在斯坦福大学获得了计算机博士学位,导师是Christopher Ré和Stefano Ermon。

Tri Dao的研究兴趣在于机器学习和系统,重点关注:高效Transformer训练和推理;远程记忆的序列模型;紧凑型深度学习模型的结构化稀疏性。

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

项目鸣谢:Zhuohan Li,Shaojie Bai,Denny Zhou,Yanping Huang,stability.ai,together.ai,ChatGPT

参考资料:https://twitter.com/tianle_cai/status/1701272996328120408https://sites.google.com/view/medusa-llm
推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快


推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快


推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快
推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...