时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

936次阅读
没有评论

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

抱抱脸CEO:爱了!!

西风 发自 凹非寺

量子位 | 公众号 QbitAI

时隔6年,一度被认为濒死的“BERT”杀回来了——

更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

去年一张“大语言模型进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而曾经盛极一时的encoder-only却似乎走向没落。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

ModernBERT作者Jeremy Howard却说:

encoder-only被低估了。

他们最新拿出了参数分别为139M(Base)、395M(Large)的两个模型上下文长度为8192 token,相较于以BERT为首的大多数编码器,其长度是它们的16倍

ModernBERT特别适用于信息检索(RAG)、分类、实体抽取等任务。

在检索、自然语言理解和代码检索测试中性能拿下SOTA:

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

效率也很高。

ModernBERT速度是DeBERTa的两倍;在更常见的输入长度混合的情况下,速度可达4倍;长上下文推理比其它模型快约3倍。

关键它所占的内存还不到DeBERTa的五分之一。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

Jeremy Howard表示,目前关于生成式模型的热议掩盖了encoder-only模型的作用。

GPT-4这样大模型,太大、太慢、私有化、成本高昂,对许多任务来说并不适合,还有Llama 3.1,参数都达到了405B。

这些模型运行缓慢,价格昂贵,而且不是你可以控制的。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

GPT-4这样的生成模型还有一个限制:它们不能预先看到后面的token,只能基于之前已生成的或已知的信息来进行预测,即只能向后看。

而像BERT这样的仅编码器模型可以同时考虑前后文信息,向前向后看都行。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

ModernBERT的发布吸引数十万网友在线围观点赞。

抱抱脸联合创始人兼CEO Clem Delangue都来捧场,直呼“爱了!!”。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

为什么ModernBERT冠以“现代”之名?相较于BERT做了哪些升级?

杀不死的encoder-only

ModernBERT的现代体现在三个方面:

  • 现代化的Transformer架构
  • 特别关注效率
  • 现代数据规模与来源

下面逐一来看。

首先,ModernBERT深受Transformer++(由Mamba命名)的启发,这种架构的首次应用是在Llama2系列模型上。

ModernBERT团队用其改进后的版本替换了旧的BERT-like构建块,主要包括以下改进:

  • 用旋转位置嵌入(RoPE)替换旧的位置编码,提升模型理解词语之间相对位置关系的表现,也有利于扩展到更长的序列长度。
  • 用GeGLU层替换旧的MLP层,改进了原始BERT的GeLU激活函数。
  • 通过移除不必要的偏置项(bias terms)简化架构,由此可以更有效地使用参数预算。
  • 在嵌入层之后添加一个额外的归一化层,有助于稳定训练。

接着,在提升速度/效率方面,ModernBERT利用了Flash Attention 2进行改进,依赖于三个关键组件:

一是使用交替注意力(Alternating Attention),提高处理效率。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

二是使用Unpadding和Sequence Packing,减少计算浪费。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

三是通过硬件感知模型设计(Hardware-Aware Model Design),最大化硬件利用率。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

这里就不详细展开了,感兴趣的童鞋可以自行查阅原论文。

最后来看训练和数据方面的改进。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

团队认为,encoders在训练数据方面的落后,实际问题在于训练数据的多样性,即许多旧模型训练的语料库有限,通常只包括维基百科和书籍,这些数据只有单一的文本模态。

所以,ModernBERT在训练时使用了多种数据,包括网络文档、编程代码和科学文章,覆盖了2万亿token,其中大部分是独一无二的,而不是之前encoders中常见的20-40次的重复数据。

训练过程,团队坚持使用原始BERT的训练配方,并做了一些小升级,比如移除了下一句预测目标,因为有研究表明这样的设置增加了开销但没有明显的收益,还将掩码率从15%提高到30%。

具体来说,139M、395M两个规格的模型都通过了三阶段训练。

首先第一阶段,在序列长度为1024的情况下训练1.7T tokens。然后是长上下文适应阶段,模型处理的序列长度增加到8192,训练数据量为250B tokens,同时通过降低批量大小保持每批次处理的总tokens量大致相同。最后,模型在500亿个特别采样的tokens上进行退火处理,遵循ProLong强调的长上下文扩展理想混合。

一番操作下来,模型在长上下文任务上表现具有竞争力,且处理短上下文的能力不受损。

训练过程团队还对学习率进行了特别处理。在前两个阶段,模型使用恒定学习率,而在最后的500亿tokens的退火阶段,采用了梯形学习率策略(热身-稳定-衰减)。

团队还使用两个技巧,加速模型的训练过程,一个是常见的batch-size warmup,另一个是受微软Phi系列模型启发,利用现有的性能良好的ModernBERT-base模型权重,通过将基础模型的权重“平铺”扩展到更大的模型,提高权重初始化的效果。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

作者透露将将公开checkpoints,以支持后续研究。

谁打造的?

前面提到的Jeremy Howard是这项工作的作者之一。

ModernBERT的三位核心作者是:

Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

Jeremy Howard透露,项目最初是由Benjamin Clavié在七个月前启动的,随后Benjamin Warner、Antoine Chaffin加入共同成为项目负责人。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

Benjamin ClaviéOn、Benjamin Warner,同Jeremy Howard一样,来自Answer.AI。Answer.AI打造了一款能AI解题、概念阐释、记忆和复盘测试的教育应用,在北美较为流行。

Antoine Chaffin则来自LightOn,也是一家做生成式AI的公司。

团队表示BERT虽然看起来大家谈论的少了,但其实至今仍在被广泛使用:

目前在HuggingFace平台上每月下载次数超6800万。正是因为它的encoder-only架构非常适合解决日常出现检索(例如用于RAG)、分类(例如内容审核)和实体提取任务。

Jeremy Howard表示明年将训练这个模型的更大版本。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

Blog:https://huggingface.co/blog/modernbert
ModernBERT-Base:https://huggingface.co/answerdotai/ModernBERT-base
ModernBERT-Large:https://huggingface.co/answerdotai/ModernBERT-large
论文:https://arxiv.org/pdf/2412.13663
参考链接:https://x.com/jeremyphoward/status/1869786023963832509

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...