[NeurIPS 2023]用生成式语言模型增强基于嵌入的文档索引

关键词

information retrieval

generative language model

embedding vector index

导读

用生成式语言模型增强基于嵌入的文档索引

基于嵌入的检索方法构建向量索引来搜索与查询表示最相似的文档表示。该方法延迟低、召回性能良好，被广泛用于文档检索。最近的研究表明，基于生成式语言模型的深度检索解决方案可提供更好的模型质量，但服务延迟过高、且无法支持文档更新。在这篇论文中，我们的目标是通过端到端深度生成模型增强向量索引，利用深度检索模型的可微优势，同时保持理想的服务效率。我们提出了模型增强向量索引（MEVI），其利用残差量化 (RQ) 码本来桥接序列到序列的深度检索和基于嵌入的模型。为了大幅减少推理时间，我们以更少的步骤生成候选文档的语义虚拟簇ID，然后在虚拟簇中利用适应性良好的嵌入向量进一步执行细粒度搜索。实验表明，我们的模型在常用的问答数据集MSMARCO Passage和Natural Questions上取得了更好的性能，并且服务延迟与基于嵌入的检索方法相当。

论文链接：https://arxiv.org/pdf/2309.13335.pdf

代码地址：https://github.com/HugoZHL/MEVI

问题背景

文档检索是网络搜索引擎中的一个关键阶段。现有的文档检索方法可分为三类：基于词语、基于嵌入、和基于生成的方法。基于词语的方法对整个语料库中的单词或短语构建倒排索引以进行搜索[1]，但无法利用语义信息。基于嵌入的方法通过双塔架构将查询和文档编码为密集嵌入向量以利用语义信息，然后构建向量索引并应用近似最近邻（ANN）搜索来检索相关文档[2]，但它们将优化目标分成了两个阶段，且最近邻和近似最近邻的召回性能也存在一定的差距[3]。基于生成的方法采用序列到序列的模型，直接根据给定的查询生成文档标识符，其中文档标识符反映了文档语义的有效先验，例如DSI[4]和NCI[5]中，文档通过分层KMeans聚类[6]被组织为树，标识符是从根到叶节点的路径编码。这类方法在小语料库上比基于嵌入的方法表现更好，但很难扩展到更大的语料库，并且由于高延迟和语料库不可变而无法在工业系统中提供在线服务。为了解决上述问题，我们提出了模型增强向量索引（MEVI），在大规模语料库上兼具高召回率和较快检索速度。

MEVI 方案

我们首先构建一个残差量化（RQ）码本[7]来对文档进行聚类。RQ码本保留了文档簇的层次结构，适合自回归生成。在此基础上，我们构建序列到序列模型来对用户查询进行编码并根据RQ码本直接生成虚拟集群标识符。然后我们使用ANN方法在虚拟集群中根据嵌入向量搜索相关的文档。在训练期间，我们使用真实数据和增强的查询文档对来训练编码器-解码器结构的端到端生成模型。在推理期间，我们通过解码器上的波束搜索根据RQ码本来检索top-K个文档集群，并在这些集群中检索与查询嵌入相似的文档嵌入。MEVI的设计解决了传统基于嵌入和基于生成的方法的局限性。一方面，我们可以将RQ码本限制在适中的大小，从而减少自回归解码器的计算时间并确保低延迟；允许在RQ码本的文档集群中插入或删除文档，从而使新文档也可以通过序列到序列模型生成文档集群来搜索。通过为RQ码本选择合适的大小，我们可以平衡召回性能和推理延迟，同时利用ANN的高效率和深度检索模型的准确召回。为了进一步增强召回性能，我们还将生成的文档集群和基于嵌入的方法得到的文档进行集成，同时发挥二者的优势。