ICLR 2024 | 基于能量的自动模型评估

1,458次阅读
没有评论

今天为大家介绍的是来自Junbo Zhao团队的一篇论文。常规的机器学习模型评估严重依赖于一个有标签的、假设独立同分布(i.i.d)的测试数据集,而这在现实世界的应用中往往是不存在的。自动模型评估(AutoEval)提供了一种与传统工作流程不同的选择,通过建立一个预测管道来评估测试性能,而不需要真实标签的存在。尽管AutoEval近期取得了成功,但仍存在过度自信、存储和计算成本高的问题。鉴于此,作者提出了一种新的度量方法MDE,使得AutoEval框架更加高效和有效。

ICLR 2024 | 基于能量的自动模型评估

随着机器学习技术的巨大进步,模型评估在研究和实践中变得越来越关键。标准的评估方法是在一个预先分割的测试集上评估模型,这个测试集一)完全有标签;二)假设是从训练集中独立同分布(i.i.d)抽取的。然而,这种传统方法可能在现实世界的场景中失败,在那里经常遇到分布偏移和缺乏真实标签的情况。此外,传统的交叉验证和标注样本都是劳力密集型的任务,使得在其他测试集变得不切实际。为了应对这些挑战,预测模型在各种分布外数据集上的性能而不需要标记,即自动模型评估(AutoEval),已经成为一个有前景的解决方案并受到了一些关注。AutoEval工作通常专注于模型输出在数据上的特征。过去的基础方法是利用模型对偏移数据集的置信度,但这些方法显然存在过度自信的问题。因此,产生了其他一些度量分支,如多个模型预测的一致性得分、网络参数的统计(例如分布差异)。引入辅助自监督任务的准确率作为估计分类准确率的代理。这些AutoEval方法的计算和/或存储开销被视为另一个问题。尽管这些先前的方法确实证明了AutoEval的有效性,但它们中的大多数都涉及额外的计算和/或外部存储成本,这可能会给系统带来不容忽视的开销。因此,作者提出了本项工作的动机:我们能否建立一个更简单、但更高效和有效的AutoEval框架,而不需要依赖太多外部资源?

要达到这个目标是具有挑战性的。最重要的是,作者希望通过更直接、透明地将网络输出的固有特征与其输入关联起来,重新建立AutoEval工作流程。作者利用了LeCun等人在2006年提出的基于能量的模型(EBM)中引入的能量概念。在这里,“能量”表示分配给数据点的标量值,这个数据点是通过假设类适应到数据流形中的。本质上,分类器可以被视为一个具有显著特性的EBM:被正确分类的数据被赋予低能量,反之亦然。基于这一发现,作者经验性地探索了能量与准确性之间的关系。在图1中观察到了一个与先前AutoEval研究相似的现象:随着数据集偏移的加剧,模型的准确率下降,而平均能量相应地增加。这意味着,当面对数据分布的变化时,模型对于越来难以正确分类的数据点,需要投入更多的“能量”来处理,这在一定程度上反映了模型泛化能力的下降。

ICLR 2024 | 基于能量的自动模型评估

图 1

根据上述观察,作者提出了一种新的度量方法——元分布能量(MDE)来预测准确性。具体来说,作者将MDE呈现为一个元分布统计,它基于单独描述每个样本的信息(能量)进行标准化。这个指标将所有样本的信息量转换为概率分布的统计,与最初的能量得分相比,为数据集的分布提供了一个更柔和的表示。此外,作者通过将MDE与分类损失联系起来提供了理论分析。这种理论上的论证表明,在假设下,MDE度量与负对数似然损失一致相关,从而反映了模型泛化的趋势。因此,作者提出一个假设:仅从测试集计算的MDE——提供了预测模型测试准确性的洞见。

MDE流程

ICLR 2024 | 基于能量的自动模型评估

基本流程如上述算法所示。整个过程可以总结如下:1. 定义能量函数:首先,借鉴基于能量的模型(EBM),为每个数据点x定义一个能量函数Z(x),这个函数将数据点映射到一个标量值,也就是能量值。2. 概率密度和能量:通过Gibbs分布,将能量值转换成概率密度。3. 连接判别模型:在判别模型中,使用分类器f将输入x映射到K个实数上,称为对数几率(logits)。然后,这些对数几率通过Softmax函数转化为概率分布。这个步骤建立模型输出与能量数值之间的关系。4. 计算MDE:对于一个未标记的OOD数据集,通过能量密度Z(x;f)为每个数据点x定义MDE,这是一个元概率分布度量。MDE是对数据集上能量函数的平均,提供了比初始能量分数更平滑的数据集表示。5. AutoEval流程:使用MDE来预测OOD测试准确性。首先在合成测试集上计算真实准确性和MDE之间的对应关系,然后通过简单线性回归预测OOD测试集的准确性。6. 预测准确性:通过线性回归模型,使用MDE来估计未知的OOD测试集上的准确性。

实验结果

ICLR 2024 | 基于能量的自动模型评估

表 1

ICLR 2024 | 基于能量的自动模型评估

表 2

ICLR 2024 | 基于能量的自动模型评估

图 2

作者报告了在不同设置下所有方法的相关性结果(R^2和ρ),并在表1、表2和图2中进行了总结。MDE在比较中超越了所有(甚至是最先进的)基线方法。这些结果从以下几个方面进行了讨论:1. MDE与常见无需训练方法的比较:在表1中,MDE显著优于常见的无需训练方法。具体来说,MDE在CIFAR-10、CIFAR-100、TinyImageNet、ImageNet和MNLI数据集上的平均R^2超过了ConfScore、Entropy、Frechet和ATC,且有明显优势。此外MDE也优于必须训练的AgreeScore和ProjNorm方法。2. MDE与最先进/高度相关方法的比较:如表2所示,MDE在几乎所有设置中的性能都优于最近的最先进方法NuclearNorm,尤其是在MNLI设置中。这一系列结果证实了MDE是一种具有广泛适用性的有竞争力的技术。值得注意的是,MDE一致性地超越了高度相关的并同样表现良好的AvgEnergy方法。这确认了基于能量的指标可以与准确性强烈相关。更重要的是,MDE在对全局样本能量重新标准化后,通过更平滑的度量产生了更强的相关性。3. 较大的数据集和文本数据集ImageNet-1K和MNLI:作者在图2中展示了在ImageNet-1k数据集上MDE的散点图,强调MDE保持了与模型性能的稳健线性关系,即使在测试准确性低于20的极端情况下(见子图(a)和(g))。在文本数据集MNLI上, MDE也显示出有效的平均相关性(R^2=0.680,ρ=0.850)。

ICLR 2024 | 基于能量的自动模型评估

表 3

ICLR 2024 | 基于能量的自动模型评估

表 4

随后作者聚焦于准确性预测误差,展示了在数据集上预测准确性时所有方法的平均绝对误差(Mean Absolute Error, MAE)结果,这些结果被记录在表3、表4。在七个数据集中,作者得出结论:相比先前的最先进方法(NuclearNorm),他们的方法将平均MAE从5.25降低到3.14,约减少了40.0%,从而在准确性预测方面建立了新的最先进水平。此外,无论是在分类领域(例如MNLI)还是分类粒度(从CIFAR-10到TinyImageNet不等),MDE都显示出强大的性能。有趣的是,在某些极其困难的测试集(例如STL-10、TinyImagenet-Adv、ANLI)中,其他方法由于预估误差相对较差而失败,而作者的方法仍然表现良好。这些结果不仅优异而且稳健,而且还得到了MDE和准确性之间观察到的最佳相关性的证实。这提醒我们,AutoEval技术在很大程度上依赖于度量与准确性之间的相关程度。

编译 | 曾全晨

审稿 | 王建民

参考资料

Peng, R., Zou, H., Wang, H., Zeng, Y., Huang, Z., & Zhao, J. (2024). Energy-based Automated Model Evaluation. arXiv preprint arXiv:2401.12689.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
让欧美老外彻底“真香”,这家中国割草机器人品牌正在定义一个行业新标准

让欧美老外彻底“真香”,这家中国割草机器人品牌正在定义一个行业新标准

让欧美老外彻底“真香”,这家中国割草机器人品牌正在定义一个行业新标准 梦瑶 2026-01-07 18:10:...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...