别再抱怨数据集漂移!捷径学习是梯度和交叉熵导致的

829次阅读
没有评论

Don’t blame Dataset Shift! Shortcut Learning due to Gradients and Cross Entropy

A Puli, L Zhang, Y Wald, R Ranganath
[New York University]

别再抱怨数据集漂移!捷径学习是梯度和交叉熵导致的

要点:

  • 研究了为什么默认的经验风险最小化(ERM)——基于梯度的交叉熵损失优化——会产生依赖于不稳定的捷径特征的模型,即使只使用稳定特征可以达到最小的交叉熵损失。

  • 通过对一个线性分类任务的理论分析,指出默认ERM对最大间隔解的隐性归纳偏差会导致它更倾向于依赖捷径特征而不是稳定特征的模型,即使没有过参数化。

  • 分析揭示了在线性任务中,最大间隔分类器通过捷径特征正确地对“捷径”样本进行分类,而通过噪声来拟合剩余的“残差”样本,这导致残差样本的测试精度低于随机猜测。

  • 提出一种称为“边际控制”(MARG-CTRL)的替代方法,其损失函数鼓励样本之间的均匀边际,理论和实证都显示,在MARG-CTRL下,线性模型仅依赖稳定特征。

  • 在视觉和语言任务上的实验表明,MARG-CTRL可以缓解捷径学习,并优于默认的ERM。MARG-CTRL的性能也匹配或超过了更复杂的两阶段方法,如Just Train Twice和Correct-n-Contrast。

  • 结果提示,通过像MARG-CTRL这样的损失函数改变归纳偏差,使其更适合感知任务,可以消除昂贵的捷径缓解过程的需要,总的来说,本文强调了选择适当的归纳偏差的重要性,而不是将数据集变化视为捷径的原因。

动机:默认的梯度下降优化方法(default-ERM)在处理感知任务时会出现“捷径学习”现象,即模型倾向于依赖于不稳定的相关性(捷径)而不是稳定特征,导致性能下降。本文探索为什么default-ERM会偏好捷径而不是稳定特征,并提出一种新的归纳偏差方法来解决这个问题。 方法:首先通过研究线性感知任务,证明了default-ERM对于最大边界解的偏好会导致模型更依赖于捷径而不是稳定特征,即使在线性模型的参数少于数据点的情况下也是如此。然后,提出一种归纳偏差方法,即鼓励统一边界解的损失函数(MARG-CTRL),通过这种方法可以缓解捷径学习现象,并在多个视觉和语言任务上进行了实验证明其有效性。 优势:通过深入研究default-ERM的偏好和归纳偏差,提出一种新方法(MARG-CTRL)来解决捷径学习问题,而无需昂贵的两阶段缓解方法或捷径特征标注。此外,本文还证明了MARG-CTRL在感知任务中的表现与更昂贵的方法相当或更好。

通过研究感知任务中的捷径学习现象,发现默认的梯度下降优化方法(default-ERM)对最大边界解的偏好导致模型更依赖于捷径而不是稳定特征,提出一种新的归纳偏差方法(MARG-CTRL)来缓解这一问题,并在多个任务上取得了良好的效果。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy