Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

1,190次阅读
没有评论

Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架


关键词:深度神经网络,统计物理,机器学习可解释性


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

 Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

论文题目:A statistical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit论文来源:Nature Machine Intelligence论文地址:https://www.nature.com/articles/s42256-023-00767-6斑图地址:https://pattern.swarma.org/paper/946de568-9df9-11ee-bc79-0242ac17000e

在计算技术进步的推动以及数十年研究的铺垫下,深度学习的发展超过了研究者为之构建坚实理论基础的解释能力。多个研究团队长期努力在基础层面上填补我们理解深度学习的空白。统计物理在这方面取得了深远的成果,并且仍然是一个新的视角和突破的源泉。


尽管深度神经网络在实践中取得了成功,但目前缺乏一个全面的理论框架,可以从训练数据的知识中预测实际相关的分数,如测试准确度。在无限宽度的极限下,每个隐藏层中的单位数Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架(其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架=1,…,L,其中L为网络的深度)远远超过训练示例数P,因此会出现巨大的简化。然而,这种理想化与深度学习实践的现实明显不符。该研究使用统计力学的工具集来克服这些限制,并推导出完全连接的深度神经结构的近似配分函数,它编码了有关训练模型的信息。该计算在热力学极限下进行,其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架和P都很大,它们的比率Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架则是有限的。这一进展使我们获得:(1)一个针对具有有限α1的单隐藏层网络的回归任务相关的泛化误差的闭合公式;(2)深度架构的配分函数的近似表达式(通过一个依赖有限数量序参量的有效作用),以及(3)深度神经网络在比例渐近极限下与学生t过程(Student’s t-processes)之间的联系。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图1. 1HL网络的学习曲线。通过方程进行有限宽度1HL(one-hidden-layer)结构的泛化误差的可测试预测。a,基于Erf激活函数的1HL架构的学习曲线,测试误差随隐藏层尺寸N1变化。在不同训练集大小P上进行实验测试损失(带有误差条表示一个标准差)与从方程1计算得出的理论进行比较(实线)。b、c,最后一层的高斯先验λ1的不同值下的测试误差随N1的变化曲线。其中,误差条在点内,虚线用于引导观察(图2、3同)。网络在来自CIFAR10数据集的P=3,000个示例(b)和MNIST的P=500个示例(c)上进行训练。检查了理论在零温度下的两个定性预测:(1)当λ1增加时,泛化损失应该对任何N1都减小;(2)在大λ1极限下,学习曲线对N1的依赖性消失,是因为此时偏置是常数。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图2 深度网络(L>1)的实验。a,d,采用ReLU激活函数的接近无限宽度和小αα=0.1)情况下训练于CIFAR10和MNIST上的深度为L的LHL神经网络的测试损失,其中P=100(a对应CIFAR10结果,d对应MNIST结果)。有限宽度的网络只能在SL<1(阴影区域,即只能在MNIST任务和深度L<3。其中,可观测标量Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架。)时优于无限宽度的预测。b,e,可视化网络不断迭代后的无限宽度NNGP核在不同层的条目(b对应CIFAR10,e对应MNIST)。ReLU NNGP核在不断迭代后趋于零,导致了特征值几乎消失,使得SL最终总是大于1。c,f,基于P=1,000个示例训练的4HL网络的测试损失,不同正则化强度的情况(其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架=N=1000;c对应CIFAR10,f对应MNIST)。尽管增加最后一层高斯先验的大小仍然改善了所有N的泛化性能,但不再像1HL网络那样清晰,在大λL情况下,曲线随N变化不再是一个常数。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图3. 随着深度L的增加,随机数据和序参量的普遍行为。a,不同1HL架构在完全随机任务上随α1变化的训练损失(即输入Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架,其中N0 = 5和标量输出y都是从均值为零、方差为单位的正态分布中采样独立同分布的随机变量)。其中,误差条在数据点内。目前本文理论只描述了训练误差恰好为零的过参数化极限,而无法解释这种普遍现象。b,采用ReLU激活函数在各向同性网络Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架情况下,对于不同的深度L对解Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架(在零温度极限下的鞍点方程的精确解)进行数值评估。随着L的增长(L≈30),对所有的α来说,序参量Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架迅速趋近于1。这表明在渐进区域中,DNNs也会在在P,N之后深度L趋于无穷时收敛到一个核心限制


编译|余孟君

神经网络的统计力学课程


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架


课程详情:

黄海平:神经网络的统计力学课程 | 50人免费名额

推荐阅读

1. 深度神经网络的统计物理:寻找最优初始化理论2. PNAS速递:深度神经网络预测小尺度湍流动力学3. PNAS速递:基于相似加权交叉学习的深度神经网络和大脑学习4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!


点击“阅读原文”,加入课程


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
刚开年,马斯克就到账了200亿美金!

刚开年,马斯克就到账了200亿美金!

Failed to fetch content Read More 
B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万

B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万

B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万 量子位的朋友们 2026-01-05 15:...
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...