Impact of Position Bias on Language Models in Token Classification
解决问题:本篇论文旨在研究语言模型在标记分类任务中的位置偏差问题对性能的影响,并提出两种解决方法。此问题是否为新问题尚不确定。
关键思路:本文通过对CoNLL03、OntoNote5.0、English Tree Bank UDen和TweeBank等数据集的深入评估,发现Transformer模型如BERT、ERNIE、ELECTRA和GPT2等在标记分类任务中存在位置偏差问题,其性能平均下降了3%至9%。为解决该问题,本文提出了两种方法:随机位置移动和上下文扰动,应用于训练过程中的批次中。结果表明,在CoNLL03、UDen和TweeBank数据集上,模型性能提高了约2%。
其他亮点:本文的实验设计详细,使用了多个数据集进行评估,提出的解决方法有效性得到验证。作者所在机构分别为格拉茨技术大学和鲁汶大学。值得深入研究的是如何更好地解决标记分类任务中的数据不平衡问题。
关于作者:Mehdi Ben Amor、Michael Granitzer和Jelena Mitrović分别是格拉茨技术大学和鲁汶大学的研究人员。Mehdi Ben Amor曾在多个人工智能和机器学习领域的国际会议上发表过论文,Michael Granitzer则在知识图谱和自然语言处理方面有丰富的研究经验,Jelena Mitrović则主要研究自然语言处理和机器学习。
相关研究:近期的相关研究包括:
- “Improving Named Entity Recognition for Social Media with Word Clusters and Automatic Glossary Generation”,作者为F. Benites, M. Granitzer和R. Kern,发表在Proceedings of the 2019 IEEE/WIC/ACM International Conference on Web Intelligence;
- “A Study of the Impact of Data Imbalance on Entity Recognition in the Clinical Domain”,作者为S. M. Kazemi, M. A. Riazi和M. S. Hosseini,发表在Journal of Biomedical Informatics;
- “Improving Named Entity Recognition in Twitter Data with Semi-supervised Learning and Deep Learning”,作者为S. M. Kazemi, M. A. Riazi和M. S. Hosseini,发表在Journal of Ambient Intelligence and Humanized Computing。
论文摘要:本文探讨了语言模型在标记分类任务中存在的一个问题,即正例的位置偏差。作者指出,自然语言处理中的下游任务,如命名实体识别和词性标注,通常会受到数据不平衡问题的影响,特别是在正负样本比例和类别不平衡方面。为了深入评估正例位置偏差对语言模型性能的影响,作者在CoNLL03、OntoNote5.0、English Tree Bank UDen和TweeBank等数据集上进行了实验,并提出了两种方法:随机位置偏移和上下文扰动,以减轻这种偏差的影响。实验结果表明,这两种方法可以提高模型在CoNLL03、UDen和TweeBank上的性能约2%。此外,作者还发现BERT、ERNIE、ELECTRA等编码器和GPT2、BLOOM等解码器的平均性能下降了3%至9%。