用上下文数据丰富源代码,以提高代码补全模型的准确性:一项实证研究

1,530次阅读
没有评论

Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study

解决问题:本篇论文旨在探究通过使用上下文数据来使代码更易于理解是否可以提高预训练代码语言模型在代码自动补全任务中的性能。这是否是一个新问题?该问题在一定程度上是新问题,因为过去的研究主要关注提高模型对代码的理解能力,而没有深入研究如何通过上下文数据来提高代码自动补全的性能。

关键思路:本文的关键思路是探究使用上下文数据是否可以提高预训练代码语言模型在代码自动补全任务中的性能。相比当前这个领域的研究状况,该论文的思路在于从提高代码的可理解性的角度出发,探究如何提高代码自动补全的性能。

其他亮点:本文的实验考虑了两种不同的代码自动补全的粒度:标记和行自动补全,并使用了三个大规模预训练的代码语言模型:UniXcoder,CodeGPT和InCoder。实验使用了五个评估指标,并使用了Wilcoxon Signed Rank检验来衡量显著性和效应大小。研究发现,所有模型在去除类型注释后表现更好(尽管效应大小很小)。对于注释,我们发现多行注释的存在可以使模型表现更好(同样效应大小很小)。基于这些观察结果,我们建议在训练、微调或选择这些模型时,要根据预期数据和应用程序做出适当的设计选择。未来可以进一步研究更好的评估和多模态技术,以提高自动补全的实用性和准确性。

关于作者:本文的主要作者是Tim van Dam、Maliheh Izadi和Arie van Deursen。他们分别来自荷兰代尔夫特理工大学(Delft University of Technology)的软件技术系。Tim van Dam是软件工程领域的专家,他的研究兴趣包括代码理解和软件质量保证。Maliheh Izadi的研究兴趣包括软件工程、人工智能机器学习。Arie van Deursen是软件工程领域的知名学者,他的研究兴趣包括软件开发工具和技术、程序语言和软件架构

相关研究:最近的相关研究包括:1)”CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”,作者为Kaitao Song等,所在机构为微软亚洲研究院;2)”CodeGPT: Generative Pre-training of Distributed Code Representations”,作者为Shuai Lu等,所在机构为香港科技大学;3)”JASS: Jointly Attentive Syntax and Semantics Modeling for Source Code”,作者为Xiaodong Gu等,所在机构为微软亚洲研究院。

论文摘要:本文题目为“使用上下文数据丰富源代码以提高代码完成模型的性能:一项实证研究”,作者为Tim van Dam、Maliheh Izadi和Arie van Deursen。最近,基于Transformer的预训练模型在解决许多软件工程任务方面取得了巨大的成果,包括自动代码完成,这是开发人员工具包中的一个基本功能。虽然许多人努力提高这种模型的代码理解能力,但相反的——使代码更易于理解——尚未得到适当的研究。在本研究中,我们旨在回答一个问题,即通过使用上下文数据使代码更易于理解是否提高了预训练代码语言模型在代码完成任务中的性能。我们认为类型注释和注释是两种常见的附加上下文信息形式,它们通常有助于开发人员更好地理解代码。对于实验,我们研究了两个粒度级别的代码完成任务:标记和行完成,并使用了三个最近的大规模源代码语言模型:UniXcoder、CodeGPT和InCoder,以及五个评估指标。最后,我们执行了Wilcoxon Signed Rank检验来衡量显着性并测量效应大小。与我们的预期相反,如果删除类型注释,则所有模型的性能都会提高(尽管效应大小很小)。对于注释,我们发现在存在多行注释的情况下,模型表现更好(同样是小效应大小)。根据我们的观察,我们建议在训练、微调或仅选择此类模型时进行适当的设计选择,考虑所需的数据和应用程序。更好的评估和多模态技术也可以进一步研究,以提高自动完成的实用性和准确性。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...