新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

1,522次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Transformer挑战者、新架构Mamba,刚刚更新了第二代:

Mamba-2,状态空间扩大8倍,训练速度提高50%!

更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??

两大主流序列建模架构,在此统一了。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

Mamba一代论文年初被ICLR拒稿,当时还让许多学者集体破防,引起一阵热议。

这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

作者依然是Albert GuTri Dao两位。

他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

那么,SSM和注意力机制究竟是怎么联系起来的,Mamba-2模型层面又做出哪些改进?

统一SSM和注意力机制

Transformer的核心组件是注意力机制,SSM模型的核心则是一个线性时变系统

两者看似不相关,但论文指出:它们都可以表示成可半分离矩阵(Semiseparable Matrices)的变换。

先从SSM的视角来看。

SSM本身就定义了一个线性映射,恰好对应了一个半可分离矩阵。

半可分离矩阵有着特殊的低秩结构,这种结构又恰好对应了SSM模型中的状态变量。

于是,矩阵乘法就相当于SSM的线性时变系统了。带选择性的SSM本质上就是一种广义线性注意力机制

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

从注意力的视角看又如何?

团队试图以更抽象方式来刻画注意力机制的本质,毕竟“Softmax自注意力”只是众多可能形式中的一种。

更一般地,任意带掩码的注意力机制,都可以表示为4个张量的缩并(Contraction)。

其中QKV对应注意力中的query,key,value,L对应掩码矩阵。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

借助这一联系,它们在线性注意力的基础上提出了结构化掩码注意力SMA(Structured Masked Attention)。

当注意力的掩码矩阵是半可分离的,就与SSM等价了。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

基于这个发现,作者进一步推导出两种等价的计算形式,这就是本文核心思想”状态空间二元性”SSD的由来。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

Mamba-2:更强学习能力,更快训练推理

基于SSD思想的新算法,Mamba-2支持更大的状态维度(从16扩大到256),从而学习更强的表示能力。

新方法基于块分解矩阵乘法,利用了GPU的存储层次结构,提高训练速度。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

架构设计上,Mamba-2简化了块的设计,同时受注意力启发做出一些改动,借鉴多头注意力创建了多输入SSM。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

有了与注意力之间的联系,SSD还可以轻松将Transformer架构多年来积累起来的优化方法引入SSM

比如引入张量并行和序列并行,扩展到更大的模型和更长的序列。

又比如引入可变序列长度,以实现更快的微调和推理。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

Mamba-2的SSD层比Mamba-1中的关联扫描快很多,使团队能够增加状态维度并提高模型质量。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

实验中,3B参数规模的Mamba-2,在300B tokens训练,超越了相同规模的Mamba-1和Transformer

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

Mamba-2在需要更大状态容量的任务上比Mamba-1有了显著改进,例如硬关联召回任务 (MQAR)。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

团队还对Mamba-2+注意力的混合架构模型做了一些实验。发现4-6个注意力层与Mamba-2层混合模型的性能,甚至优于Transformer++(原版结构+现代最佳实践)和纯Mamba-2。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

作者Tri Dao认为,这说明了Attention和SSM两种机制可以互为补充,另外他还提出了对未来研究方向的思考。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

最后,除了52页的论文之外,两位作者还撰写了四篇更易读的系列博客文章。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

他们特别建议:先看博客,再看论文。

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

对Mamba-2模型或者状态空间二元性理论感兴趣的,可以读起来了~

博客(两个地址内容一样):
https://tridao.me/blog/
https://goombalab.github.io/blog/

论文:
https://arxiv.org/abs/2405.21060

代码和模型权重:
https://github.com/state-spaces/mamba

参考链接:
[1]https://x.com/_albertgu/status/1797651240396144758
[2]https://x.com/tri_dao/status/1797650443218436165

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 6 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...