为什么这篇谷歌论文被称为「Attention is all you need」V2

167次阅读
没有评论

为什么这篇谷歌论文被称为「Attention is all you need」V2

优化器竟是记忆体

从小老师就爱说“好记性不如烂笔头”,那么我们为什么不给有“记忆缺陷”的大模型配一个小本本记上总结归纳的要点呢?

继著名的“Attention Is All You Need”之后,谷歌新论文再度引爆圈内:我们可能忽略了AI的“另一半大脑”

这篇文章题为
嵌套学习:深度学习架构的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
在圈内被誉为是“Attention is all you need”V2

为什么这篇谷歌论文被称为「Attention is all you need」V2

失忆的巨人

你是否曾对AI感到一丝“恨铁不成钢”?你刚刚在对话中详细解释过一个概念,三句话之后它就可能完全遗忘,仿佛从未发生。ChatGPT们上知天文下知地理,却学不会你今天刚教它的一件小事。

为什么这篇谷歌论文被称为「Attention is all you need」V2

这并非偶然的Bug,而是当前所有大型语言模型(LLMs)共同的“先天疾病”——数字失忆症

为了“治疗”它,过去十年,整个行业几乎只遵循一条黄金定律:把模型做得更深、更大。我们不断堆叠Transformer层,追逐万亿参数,相信“规模即智能”,期待着记忆相关的能力也能“涌现”出来。

但是,这个努力方向有着明显的问题:仅提高算法复杂度可能并不会使能力显著提升

具体而言,深度模型的计算深度可能不会随着层数的增加而改变,模型的扩大对某些参数的容量提升影响十分有限,快速适应新任务、持续学习以及泛化性也很难通过参数量堆叠“自发涌现”。另外,受限于优化器,训练过程可能收敛到一个次优解。

近日,谷歌一项颠覆性的研究指出,我们可能忽略了一个与“深度”同等重要、甚至更为根本的维度

这项名为“嵌套学习”的研究,正以燎原之势在学术圈内引发地震。许多资深研究者将其私下称为“Attention is All You Need” V2。它没有提出新的炫酷模块,而是试图回答了那个最根本的问题:机器学习的本质,究竟是什么?

优化器竟是记忆体

一切颠覆性的认知,往往始于对常识的重新审视。研究团队选择了一个最基础、最不被注意的起点:优化器

无论是经典的随机梯度下降,还是如今广泛使用的Adam,我们都将其视为训练模型的“引擎”或“导航仪”——它计算梯度,指引参数朝损失下降的方向前进,仅此而已。

然而,这篇论文给出了一个反直觉的证明:主流的优化器本身,就是一个持续进行着“记忆”的关联记忆系统

这是什么意思?想象一下,优化器不仅在看当前的路况(即时梯度),它内部还有一个默默做笔记的黑盒子。这个盒子不断压缩、存储一路走来所有梯度变化的“模式”与历史。当我们以为自己在做“训练模型”这一件事时,实际上已经不知不觉地运行了多个嵌套的、在不同时间尺度上并行的小型学习程序

这个发现,成为了撬动整个新范式的支点。它意味着,从最底层的优化器,到中层的注意力机制,再到整个神经网络,都可以被统一地重新审视——它们不再是功能各异被拼凑起来的零件,而是在不同速度、不同抽象层级上,嵌套运行的“学习-记忆”模块

我们熟悉的、引以为傲的“深度学习”体系,从这个全新的视角看,仅仅是这个更宏大、更立体范式的一个扁平化投影

为什么这篇谷歌论文被称为「Attention is all you need」V2

缺失的维度

基于这一核心洞察,论文提出了一个简洁而深刻的新范式:嵌套学习。它认为,真正有效的智能学习需要两个正交的维度:

1. 深度:即模型的层数与容量,这是我们过去十年全力拓展的。

2. 频率:即模型内部组件自我更新的节奏与速度,这是我们先前几乎完全忽略的。

人工智能的进步常受到人脑的启发,这次也不例外。

人类之所以能持续学习、终身成长,是因为大脑同时用多种“生物时钟”在工作。有些神经元回路快速反应,处理瞬息万变的感官信息(如正在进行对话);有些则缓慢而坚定地巩固,将重要模式沉淀为长期知识或技能。这是一个连续、平滑的时间频谱,信息在不同频率的“通道”间有序流动、加工和储存。

而当前的大模型就像得了“顺行性失忆症”,这种病的患者在病症发作后无法形成新的长期记忆,但此前的既有记忆则保持完好。这种状况将患者的知识与体验局限在两个时间片段:一个是很久远的过去(发病之前),另一个是极其短暂的现在。患者会不断地经历每一个“当下”,仿佛它们永远是崭新的、无法被记住的。

这与当前的大模型情况相似,只有两种极端的工作频率:一种是快速响应但转瞬即逝的对话缓存,另一种是在预训练完成后便冻结的长期知识。它严重缺失了中间所有频谱的“记忆通道”。因此,任何新知识都无处安放,要么在对话结束后遗忘,要么覆盖旧记忆为代价以高昂的计算成本更新——这正是“数字失忆症”的根源。

为什么这篇谷歌论文被称为「Attention is all you need」V2

HOPE与连续记忆光谱

全新的理论,需要全新的架构来证明。基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构。其核心创新是一个连续记忆系统

这不再是一两个孤立的记忆模块,而是一系列像光谱一样排列的MLP模块。每个模块都以预设的、不同的频率进行更新。信息输入后,会在这些不同节奏的记忆模块间自动流动与分配:

高频模块像“工作记忆”,快速捕捉对话中的即时细节与上下文。

中频模块像“近期记忆”,负责提炼和归纳一段时间内出现的模式。

低频模块像“长期记忆”,缓慢而稳定地将最重要的知识沉淀为模型固有能力。

这个过程,高度模仿了神经科学中信息从海马体向新皮层转移、巩固的经典机制。在初步实验中,HOPE已经在标准语言建模和常识推理任务上展现了强大的竞争力。

为什么这篇谷歌论文被称为「Attention is all you need」V2

更重要的是,它显露出了解决持续学习问题的巨大潜力——新知识可以在这条“记忆光谱”上找到自己合适的位置,被渐进式地消化吸收,而非引发系统性的崩溃或遗忘。

一场静待发生的范式转移

“嵌套学习”的价值,或许不在于明天就取代Transformer,成为大模型的主流骨架。它的深远意义在于,提供了一套全新的设计逻辑和思考框架

它的成功启示我们,下一代AI的突破,不一定依赖于发明更复杂的“神经元积木”,而在于为AI设计一套能激发潜能的框架。这正是其被誉为“V2”的原因——如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身,构建一个统一、可解释的“白箱”模型。

当然,这仍是非常前沿的探索,这场关于“记忆”与“学习”本质的重新思考,才刚刚拉开序幕。人工智能的未来,或许不仅需要更深的网络,更需要一个能够学习和演化的系统,而不仅仅是作为一个静止的、被凝固在训练完成那一刻的“知识琥珀”

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 12 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
给AI打个分,结果搞出17亿估值独角兽???

给AI打个分,结果搞出17亿估值独角兽???

给AI打个分,结果搞出17亿估值独角兽??? 闻乐 2026-01-07 17:32:01 来源:量子位 「匿...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库

OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库

OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库 闻乐 2026-01-07 12:36...