ICLR 2024 | 基于能量的自动模型评估

602次阅读
没有评论

今天为大家介绍的是来自Junbo Zhao团队的一篇论文。常规的机器学习模型评估严重依赖于一个有标签的、假设独立同分布(i.i.d)的测试数据集,而这在现实世界的应用中往往是不存在的。自动模型评估(AutoEval)提供了一种与传统工作流程不同的选择,通过建立一个预测管道来评估测试性能,而不需要真实标签的存在。尽管AutoEval近期取得了成功,但仍存在过度自信、存储和计算成本高的问题。鉴于此,作者提出了一种新的度量方法MDE,使得AutoEval框架更加高效和有效。

ICLR 2024 | 基于能量的自动模型评估

随着机器学习技术的巨大进步,模型评估在研究和实践中变得越来越关键。标准的评估方法是在一个预先分割的测试集上评估模型,这个测试集一)完全有标签;二)假设是从训练集中独立同分布(i.i.d)抽取的。然而,这种传统方法可能在现实世界的场景中失败,在那里经常遇到分布偏移和缺乏真实标签的情况。此外,传统的交叉验证和标注样本都是劳力密集型的任务,使得在其他测试集变得不切实际。为了应对这些挑战,预测模型在各种分布外数据集上的性能而不需要标记,即自动模型评估(AutoEval),已经成为一个有前景的解决方案并受到了一些关注。AutoEval工作通常专注于模型输出在数据上的特征。过去的基础方法是利用模型对偏移数据集的置信度,但这些方法显然存在过度自信的问题。因此,产生了其他一些度量分支,如多个模型预测的一致性得分、网络参数的统计(例如分布差异)。引入辅助自监督任务的准确率作为估计分类准确率的代理。这些AutoEval方法的计算和/或存储开销被视为另一个问题。尽管这些先前的方法确实证明了AutoEval的有效性,但它们中的大多数都涉及额外的计算和/或外部存储成本,这可能会给系统带来不容忽视的开销。因此,作者提出了本项工作的动机:我们能否建立一个更简单、但更高效和有效的AutoEval框架,而不需要依赖太多外部资源?

要达到这个目标是具有挑战性的。最重要的是,作者希望通过更直接、透明地将网络输出的固有特征与其输入关联起来,重新建立AutoEval工作流程。作者利用了LeCun等人在2006年提出的基于能量的模型(EBM)中引入的能量概念。在这里,“能量”表示分配给数据点的标量值,这个数据点是通过假设类适应到数据流形中的。本质上,分类器可以被视为一个具有显著特性的EBM:被正确分类的数据被赋予低能量,反之亦然。基于这一发现,作者经验性地探索了能量与准确性之间的关系。在图1中观察到了一个与先前AutoEval研究相似的现象:随着数据集偏移的加剧,模型的准确率下降,而平均能量相应地增加。这意味着,当面对数据分布的变化时,模型对于越来难以正确分类的数据点,需要投入更多的“能量”来处理,这在一定程度上反映了模型泛化能力的下降。

ICLR 2024 | 基于能量的自动模型评估

图 1

根据上述观察,作者提出了一种新的度量方法——元分布能量(MDE)来预测准确性。具体来说,作者将MDE呈现为一个元分布统计,它基于单独描述每个样本的信息(能量)进行标准化。这个指标将所有样本的信息量转换为概率分布的统计,与最初的能量得分相比,为数据集的分布提供了一个更柔和的表示。此外,作者通过将MDE与分类损失联系起来提供了理论分析。这种理论上的论证表明,在假设下,MDE度量与负对数似然损失一致相关,从而反映了模型泛化的趋势。因此,作者提出一个假设:仅从测试集计算的MDE——提供了预测模型测试准确性的洞见。

MDE流程

ICLR 2024 | 基于能量的自动模型评估

基本流程如上述算法所示。整个过程可以总结如下:1. 定义能量函数:首先,借鉴基于能量的模型(EBM),为每个数据点x定义一个能量函数Z(x),这个函数将数据点映射到一个标量值,也就是能量值。2. 概率密度和能量:通过Gibbs分布,将能量值转换成概率密度。3. 连接判别模型:在判别模型中,使用分类器f将输入x映射到K个实数上,称为对数几率(logits)。然后,这些对数几率通过Softmax函数转化为概率分布。这个步骤建立模型输出与能量数值之间的关系。4. 计算MDE:对于一个未标记的OOD数据集,通过能量密度Z(x;f)为每个数据点x定义MDE,这是一个元概率分布度量。MDE是对数据集上能量函数的平均,提供了比初始能量分数更平滑的数据集表示。5. AutoEval流程:使用MDE来预测OOD测试准确性。首先在合成测试集上计算真实准确性和MDE之间的对应关系,然后通过简单线性回归预测OOD测试集的准确性。6. 预测准确性:通过线性回归模型,使用MDE来估计未知的OOD测试集上的准确性。

实验结果

ICLR 2024 | 基于能量的自动模型评估

表 1

ICLR 2024 | 基于能量的自动模型评估

表 2

ICLR 2024 | 基于能量的自动模型评估

图 2

作者报告了在不同设置下所有方法的相关性结果(R^2和ρ),并在表1、表2和图2中进行了总结。MDE在比较中超越了所有(甚至是最先进的)基线方法。这些结果从以下几个方面进行了讨论:1. MDE与常见无需训练方法的比较:在表1中,MDE显著优于常见的无需训练方法。具体来说,MDE在CIFAR-10、CIFAR-100、TinyImageNet、ImageNet和MNLI数据集上的平均R^2超过了ConfScore、Entropy、Frechet和ATC,且有明显优势。此外MDE也优于必须训练的AgreeScore和ProjNorm方法。2. MDE与最先进/高度相关方法的比较:如表2所示,MDE在几乎所有设置中的性能都优于最近的最先进方法NuclearNorm,尤其是在MNLI设置中。这一系列结果证实了MDE是一种具有广泛适用性的有竞争力的技术。值得注意的是,MDE一致性地超越了高度相关的并同样表现良好的AvgEnergy方法。这确认了基于能量的指标可以与准确性强烈相关。更重要的是,MDE在对全局样本能量重新标准化后,通过更平滑的度量产生了更强的相关性。3. 较大的数据集和文本数据集ImageNet-1K和MNLI:作者在图2中展示了在ImageNet-1k数据集上MDE的散点图,强调MDE保持了与模型性能的稳健线性关系,即使在测试准确性低于20的极端情况下(见子图(a)和(g))。在文本数据集MNLI上, MDE也显示出有效的平均相关性(R^2=0.680,ρ=0.850)。

ICLR 2024 | 基于能量的自动模型评估

表 3

ICLR 2024 | 基于能量的自动模型评估

表 4

随后作者聚焦于准确性预测误差,展示了在数据集上预测准确性时所有方法的平均绝对误差(Mean Absolute Error, MAE)结果,这些结果被记录在表3、表4。在七个数据集中,作者得出结论:相比先前的最先进方法(NuclearNorm),他们的方法将平均MAE从5.25降低到3.14,约减少了40.0%,从而在准确性预测方面建立了新的最先进水平。此外,无论是在分类领域(例如MNLI)还是分类粒度(从CIFAR-10到TinyImageNet不等),MDE都显示出强大的性能。有趣的是,在某些极其困难的测试集(例如STL-10、TinyImagenet-Adv、ANLI)中,其他方法由于预估误差相对较差而失败,而作者的方法仍然表现良好。这些结果不仅优异而且稳健,而且还得到了MDE和准确性之间观察到的最佳相关性的证实。这提醒我们,AutoEval技术在很大程度上依赖于度量与准确性之间的相关程度。

编译 | 曾全晨

审稿 | 王建民

参考资料

Peng, R., Zou, H., Wang, H., Zeng, Y., Huang, Z., & Zhao, J. (2024). Energy-based Automated Model Evaluation. arXiv preprint arXiv:2401.12689.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy