姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

898次阅读
没有评论

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

张量积注意力TPA,兼容RoPE位置编码

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

新型注意力机制TPA姚期智院士团队打造。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

TPA对每个token做动态的张量分解,不存储完整的静态KV,而是保留分解的版本,内存占用节省90%(或者更多),而不会牺牲性能。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

论文中还证明了流行的MHA、MQA、GQA都是TPA的特殊情况,用一个框架统一了现代注意力设计

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

用此方法训练的新模型T6,代码已在GitHub开源。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

论文发布后,有创业者表示,终于不用付那么多钱给云厂商了。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

也有研究者认为,论文中的实验看起来很有希望,不过实验中的模型规模有点小,希望看到更多结果。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

动态张量分解,无缝集成RoPE

尽管现有的注意力机制在众多任务中取得了不错的效果,但它还是有计算和内存开销大的缺陷。

DeepSeek-v2中提出的MLA压缩了KV缓存,但与RoPE位置编码不兼容,每个注意力头需要额外的位置编码参数。

为了克服这些方法的局限性,团队提出张量积注意力(TPA,Tensor Product Attention)。

新方法在注意力计算过程中对QKV做分解。

与LoRA系列低秩分解方法相比,TPA将QKV分别构造为与上下文相关的分解张量,实现动态适应。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

通过只缓存分解后的秩,设置合适的参数可使内存占用降低90%或以上。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

对于流行的RoPE位置编码,TPA可以与之无缝集成,实现以较低的成本旋转分解KV,无需进行复杂的调整。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

在实验中,使用FineWeb-Edu 100B数据集训练模型,TPA与其他注意力设计相比始终保持较低的困惑度。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样本性能。TPA和TPA-KVonly在大多数任务中都优于或匹配所有基线。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

论文由清华&上海期智研究员团队、UCLA顾全全团队合作,共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫。

此外还有来自心动网络Taptap的Qin Zhen。

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

论文地址:
https://arxiv.org/abs/2501.06425
开源代码:
https://github.com/tensorgi/T6

参考链接:
[1]https://x.com/yifan_zhang_/status/1879049477681741896

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...