Revisiting k-NN for Pre-trained Language Models
解决问题:本文旨在探索利用k-NN分类器增强预训练语言模型(PLMs)的分类器,以解决自然语言处理中的问题。同时,本文也验证了k-NN分类器在NLP中的有效性。
关键思路:本文提出了将k-NN分类器与PLMs的文本表示相结合的方法,以增强PLMs的分类器。具体来说,作者提出了两个步骤:(1)利用k-NN作为先验知识来校准训练过程;(2)线性插值k-NN预测的概率分布和PLMs分类器预测的概率分布。作者的方法的核心是k-NN校准训练,该方法将预测结果视为训练过程中易于和困难的示例的指标。
其他亮点:本文在fine-tuning、prompt-tuning范式和零样本、少样本和完全监督设置下,分别在八个不同的端任务上进行了广泛的实验。作者还开源了代码和数据集,方便其他研究者进行进一步的研究。
关于作者:本文的主要作者为李磊、陈静、田博中和张宁宇。他们分别来自中国的浙江大学和北京大学。李磊曾在ACL、EMNLP、NAACL等自然语言处理领域的顶级会议上发表过多篇论文,其研究方向主要包括文本分类、情感分析等。陈静主要研究方向为自然语言处理、机器学习和计算机视觉,曾在多个国际会议上发表过论文。田博中的研究方向包括自然语言处理、机器学习和计算机视觉,曾在多个国际会议上发表过论文。张宁宇的研究方向包括自然语言处理、机器学习和计算机视觉,曾在多个国际会议上发表过论文。
相关研究:近期其他相关的研究包括:
- “On the Power of Curriculum Learning in Training Deep Networks”,作者为Yoshua Bengio等,发表于ICML 2009;
- “Efficient Estimation of Word Representations in Vector Space”,作者为Tomas Mikolov等,发表于ICLR 2013;
- “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,作者为Jacob Devlin等,发表于NAACL 2019。
论文摘要:本文重新审视了k-NN分类器在增强基于PLMs的分类器方面的应用。与此相反,k-NN分类器作为惰性学习范例,往往能够缓解过度拟合和孤立噪声。从方法论层面上,我们建议采用基于PLMs的文本表示的k-NN分类器,分为两个步骤:(1)利用k-NN作为先验知识来校准训练过程。(2)线性插值k-NN预测的概率分布和PLMs分类器的概率分布。我们方法的核心是实现了k-NN校准训练,该训练过程将预测结果作为训练过程中易于和难以处理的示例的指标。从应用场景的多样性角度出发,我们分别在八个不同的终端任务上对微调、提示微调范例和零样本、少样本和完全监督设置进行了广泛的实验。我们希望我们的探索将鼓励社区重新审视经典方法在高效NLP方面的能力。