Large language models can accurately predict searcher preferences
P Thomas, S Spielman, N Craswell, B Mitra
[Microsoft]
用大语言模型准确预测搜索者偏好
-
相关性标签指示搜索结果是否有价值,对评估和优化搜索系统很重要,通常通过第三方标注者获得,但如果标注者不了解用户需求,存在质量低的风险。
-
本文提出使用大语言模型,以仔细的第一方用户反馈作为提示,生成高质量相关性标签。
-
在TREC-Robust数据上的实验表明,LLM标签的准确度可与人类标注者相当或更好,并识别出相似的难题查询和最优系统。
-
在Bing中,发现LLM标签比训练有素的人类标注者更准确,成本更低。允许测量更多结果和更快迭代。
-
使用LLM标签重新训练Bing排名器的一部分,取得了显著的相关性提升。
-
LLM标注存在偏见、过拟合特异性和环境影响等问题,但展示了LLM作为获取高质量相关性标注的潜力。
动机:评估和优化搜索系统需要准确的相关性标签,但获取大量标签存在困难。传统的方法是通过第三方评估者获取标签,但存在低质量数据的风险。本文提出一种改进标签质量的替代方法,利用真实用户的反馈和大型语言模型生成符合用户偏好的标签。
方法:使用大型语言模型(LLM)进行大规模相关性标注,通过精心选择LLM的提示来生成与真实用户偏好最匹配的标签。
优势:大型语言模型在相关性标注方面表现出与人类评估者相当的准确性,能选择最困难的查询、最佳结果和最佳组合。相比于第三方工作者,大型语言模型生成的标签成本更低,训练出的排序模型也更好。
提出一种利用大型语言模型生成高质量相关性标签的方法,能更好地满足用户需求,具有比传统方法更低的成本和更好的性能。
https://arxiv.org/abs/2309.10621