Mamba架构第一次做大!混合Transformer,打败Transformer

1,453次阅读
没有评论

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

精彩精彩,第一个把爆火Mamba架构真正扩展到足够的工作来了。

520亿参数,还是Mamba+Transformer混合架构。

它的名字叫Jamba

Mamba架构第一次做大!混合Transformer,打败Transformer

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。

Mamba架构第一次做大!混合Transformer,打败Transformer

初步跑分显示:

  • Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍

Mamba架构第一次做大!混合Transformer,打败Transformer

  • 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济

Mamba架构第一次做大!混合Transformer,打败Transformer

这项成果,来自以色列AI公司AI21labs

Mamba原作者看了之后都激动转发:

绝对的“大新闻”。

Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba、Transformer,合体

由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)

但它也有自己的缺点——

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。

本着“既要也要”的原则,Jamba站出来提供两全其美之作。

Mamba架构第一次做大!混合Transformer,打败Transformer

Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。

如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。

简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。

最终模型容量高了,计算需求也没有相应的增加。

而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。

值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。

要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。

因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:

同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)

吞吐量和效率up

初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。

首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。

如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。

相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。

Mamba架构第一次做大!混合Transformer,打败Transformer

第三,Jamba的输出质量也得到了保证。

在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。

总体来说,Jamba的性能接近Mixtral 8x7B。

Mamba架构第一次做大!混合Transformer,打败Transformer

最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。

好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可

(Jamba的指令版本则将很快通过AI21labs平台上线。)

Mamba架构第一次做大!混合Transformer,打败Transformer

网友看完都感动哭了。

Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba架构第一次做大!混合Transformer,打败Transformer

传送门:
https://huggingface.co/ai21labs/Jamba-v0.1

参考链接:
[1]
https://www.ai21.com/blog/announcing-jamba
[2]https://www.ai21.com/jamba
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 Mamba架构第一次做大!混合Transformer,打败TransformerMamba架构第一次做大!混合Transformer,打败Transformer

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️

点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

Mamba架构第一次做大!混合Transformer,打败Transformer

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...