把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

866次阅读
没有评论

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

采用局部敏感哈希算法

CPU+GPU,模型KV缓存压力被缓解了。

来自CMU、华盛顿大学、Meta AI的研究人员提出MagicPIG,通过在CPU上使用LSH(局部敏感哈希)采样技术,有效克服了GPU内存容量限制的问题。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

与仅使用GPU的注意力机制相比,MagicPIG在各种情况下提高了1.76~4.99倍的解码吞吐量,并在检索和推理任务中实现了更高的下游准确率,优于Quest等现有技术。

概括而言,这项研究主要贡献有两点:

1、相比于其他的稀疏注意力(Sparse Attention),MagicPIG基于采样/估计而非搜索,提升了推理质量。

2、研究把解码阶段注意力模块的计算和哈希表卸载到CPU上,探索了异构计算的可能性,并且提升了吞吐量,有望降低实际模型部署成本。

下面具体来看。

KV缓存限制了GPU高效利用

在长上下文大模型(LLM)的推理过程中,KV缓存(Key-Value Cache)成为关键瓶颈。KV缓存主要用于存储中间的注意力键和值,从而避免重复计算。

然而,其显存占用随着批量大小和序列长度的线性增长而迅速增加,这严重限制了GPU的批量处理能力,导致计算资源无法被充分利用。

NVIDIA A100-40GB GPU为例,在处理Llama-3.1-8B模型且上下文长度为128k时,仅支持单个请求,且近一半的解码时间都消耗在访问KV缓存上,GPU利用率明显不足。

此外,推理过程中采用的一些策略,如多样性生成(Best-of-N)和长链式推理(Long Chain-of-Thoughts),会进一步增加生成的Token数量,加剧显存压力,导致推理效率进一步下降。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

TopK Attention的问题

众所周知,注意力机制本质上具有稀疏性,因此动态稀疏注意力和基于TopK的近似方法得到了广泛研究。

然而,这些方法往往伴随着显著的质量下降问题。

目前已有的KV缓存压缩技术,如Quest、H2O和Loki,主要通过筛选出KV缓存中注意力得分最高的子集来提高效率。然而,尽管这些方法在实践中表现出一定的效果,基于TopK的注意力依然是一种存在偏差的近似方法,且缺乏理论上的严格保障。

这种不足限制了其在高精度场景中的广泛应用。

下图显示,即使是精确的TopK注意力机制也会导致显著的估计误差和下游任务性能下降。

这一问题在需要高上下文利用率的复杂任务中尤为突出,例如聚合任务、常用词提取(CWE)、高频词提取(FWE)以及逻辑推理任务。在这些场景中,基于TopK近似方法的性能下降尤其严重。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

以下几点观察揭示了为何TopK注意力机制无法始终有效工作

这些观察不仅解释了注意力机制的行为,还可能对模型训练具有重要意义:

1、首个输入token(注意力汇聚点,sink)的隐藏状态(包括但不限于键和值状态)几乎不随输入变化而改变。(见左图, 在采样的输入中,其最小相似度均高于0.99)

2、键状态的中心方向在不同输入句子中保持稳定。(见中图, 相似度均高于0.9)

3、键状态的中心与汇聚点token的键状态几乎相反。(见右图, -0.9至-0.8之间)

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

这些现象为理解注意力机制提供了新的视角,同时也表明传统的TopK近似方法在某些场景下可能存在局限性。

为了解决这一问题,研究提出了一种基于采样而非搜索TopK键值缓存的新方法。

算法:基于采样的注意力估计

与仅依赖注意力分数最高的键值对相比,融入基础分布信息可以显著提高估计的准确性。

研究将这一问题视为采样中的偏差校正问题。在生物学、社会学和机器学习等领域,无偏且高效的采样技术已被广泛研究,并具有坚实的理论保障。

如图所示,基于注意力分数按比例进行采样(即所谓的Oracle Sampling,研究把注意力模块的输出看成value向量的期望值,对应的分布是注意力得分)相比于传统的TopK选择方法,其估计误差要小得多,最多可降低4倍。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

这表明采样技术在注意力近似中的潜力。

从注意力得分中采样,在实际中不可行。重要性采样(Importance Sampling)允许从一个已知分布中抽取样本1,2,…,B,来估计未知分布的期望。

最终的输出由下式给出:

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

重要性采样要求和的峰值对应以降低估计方差,为此,研究使用局部敏感哈希(LSH) 来生成采样概率。

需要指出的是,因为存在Softmax(注意力得分需要归一化), 所以研究实际上试图近似的是自归一化重要性采样。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

系统:将注意力计算和哈希表放在CPU上

除了精度下降的问题外,受限的GPU显存容量也限制了现有动态KV缓存压缩方法(如Quest和Loki)在许多场景中的适用性。

与此同时,像DeepSpeed-Zero-Inference和FastDecode这样的技术展示了将KV缓存和注意力计算卸载到CPU上的潜力。

CPU的内存带宽大约是GPU显存带宽的10%-20%,这引出了一个自然的问题:

能否在不牺牲精度的前提下,将注意力计算中的内存访问量减少10倍?

通过利用采样算法,例如MagicPIG中基于LSH(局部敏感哈希)的采样技术进行注意力估计,研究大幅降低了内存访问量。这种方法等效地提升了CPU的内存带宽,使得在维持精度的情况下实现高效的注意力计算。

论文的系统设计扩展了以往的工作,将大语言模型(LLM)的解码分为以下四个部分:

  • 参数计算:包括所有线性投均在GPU上运行。
  • 注意力计算:涉及公式,该部分在CPU上运行。
  • 随机投影:在生成过程中,对于每个执行K x L次随机投影以生成哈希码。由于所有注意力头可以共享相同的随机投影器,内存开销较小(在实际实现中约为400KB)。实验中K=9或10,而L为数百,因此该步骤主要受计算限制,放置在GPU上运行。
  • 检索:需要在L个哈希表中查找q的哈希码。这部分计算开销非常轻量,但预构建的哈希表占用的内存较大,因此更适合放置在CPU上运行。通过上述任务分区,可以支持更大规模的K和L哈希表,而无需担心哈希码计算和哈希表存储的开销。
把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

实验

研究从准确率推理速度两个方面来评估MagicPIG系统的能力。

图片中的百分比为实际采样的KV cache的数量,对于MagicPIG而言,K10L150≈2%, K10L170≈2.5%。

长文本RULER

以Llama-3.1-8B-Instruct为例,MagicPIG在检索和推理任务中比Quest(稀疏注意力的SOTA基线)实现了更高的下游准确率。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

推理速度和吞吐量

在L20 + Intel 8563C上测试吞吐量,MagicPIG与仅使用GPU的注意力机制相比,在各种情况下提高了1.76~4.99倍的解码吞吐量。

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

整体而言,MagicPIG是将经典的哈希算法和高维向量估计用到LLM解码上的尝试。

接下来,研究将支持更加高效的局部敏感哈希算法,并希望进一步降低LLM部署成本,探索异构计算的可能性。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...