Meta超级智能实验室首篇论文:重新定义RAG

565次阅读
没有评论

Meta超级智能实验室首篇论文:重新定义RAG

性能无损,效率提升

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

Meta超级智能实验室首篇论文,来了——

提出了一个名为REFRAG的高效解码框架,重新定义了RAG(检索增强生成),最高可将首字生成延迟(TTFT)加速30倍。

Meta超级智能实验室首篇论文:重新定义RAG

毕竟算是超级智能实验的“开山之作”,研究一出,就已经在网上掀起了不少的热议。

Meta超级智能实验室首篇论文:重新定义RAG

例如Reddti网友表示:

若效果真如研究所说的那样,那对RAG来说是相当不错的改进,看起来可以做到在不牺牲准确性的情况下,能显著提高速度和上下文大小。

Meta超级智能实验室首篇论文:重新定义RAG

天下苦RAG上下文计算冗余久矣

首先,我们需要理解并回顾一下RAG的工作原理。

当一个大型语言模型(LLM)被要求回答需要精确背景知识的问题时,如果仅依赖它内部参数化的知识,可能会出现事实性错误或信息滞后等情况。

而RAG就通过一个外部知识库(如企业文档、专业数据库等)进行检索,将与问题最相关的信息提取出来,作为上下文与原始问题一同提供给LLM。LLM在获得这些精确的参考资料后,就能生成内容更可靠、更具时效性的答案。

然而,这个模式在工程方面也带来了不小的挑战,即推理效率与信息量的权衡

当AI检索到的参考资料非常多(也就是我们通常说的“长上下文”)时,LLM的处理负担会大幅增加。

模型处理上下文的计算复杂度通常与上下文长度的平方成正比,导致生成第一个字的延迟(Time-to-First-Token, TTFT)显著增加,这直接影响了实时交互应用的用户体验。

同时,处理长上下文也意味着更高的计算和内存开销,为系统的规模化部署带来了挑战。

Meta超级智能实验室首篇论文:重新定义RAG

基于这样的背景,Meta超级智能实验室的研究人员发现,在RAG应用中,LLM处理检索到的多个文档时,其计算过程存在大量冗余

通过实验,他们观察到模型内部的注意力机制在处理这些文档时,呈现出一种“块对角”(block-diagonal)的稀疏模式。

这意味着,模型的注意力主要集中在单个文档内部,以及各文档与用户问题之间的关联上。而不同文档片段之间的交叉注意力得分通常很低,表明它们之间的关联性较弱。

然而,标准的Transformer架构并不会区分这些关联性的强弱,而是对上下文中的所有词元(token)进行全局的注意力计算,这导致了大量计算资源被消耗在分析那些关联性很弱的文档片段上。

基于这一观察,研究团队提出:RAG解码过程中的大部分注意力计算对于最终结果的贡献有限,可以在不显著影响性能的前提下被优化或移除。

REFRAG,就此应运而生。

REFRAG:一种选择性压缩解码方案

REFRAG这个框架,主要通过“压缩(Compress)、感知(Sense)、扩展(Expand)”的流程,优化了LLM处理外部知识的方式。

Meta超级智能实验室首篇论文:重新定义RAG

压缩:将上下文转换为紧凑表征

REFRAG首先改变了上下文的呈现方式,它没有将所有检索到的原始文本直接输入给主LLM,而是引入了一个轻量级的编码器模型。

这个编码器将长篇的参考资料切分为多个“块”(chunks),并为每个“块”生成一个紧凑的向量表示——“块嵌入”(chunk embedding)。这个“块嵌入”可以视为原始文本块的浓缩摘要。

这一步骤带来了两个直接的好处,首先就是缩短输入序列长度,因为LLM需要处理的输入从数千个词元缩减为数百个“块嵌入”,显著降低了后续的计算量。

其次是由于这些“块嵌入”可以被预先计算并存储,当知识库中的同一文档被再次检索时,系统可以直接调用缓存的嵌入,避免了重复的编码计算。

感知:智能判断关键信息

考虑到并非所有信息都适合压缩,某些包含关键细节的文本片段需要被保留。

为此,REFRAG训练了一个基于强化学习(RL)的策略网络。

这个网络的功能是分析所有的“块嵌入”和用户问题,判断哪些文本块包含最核心的信息,需要以原始文本的形式呈现给LLM。

扩展:结合压缩与原始文本

经过前两步的处理,最终输入到主LLM的是一个混合序列,它包含了大部分上下文的“块嵌入”(压缩表示)和少量被判断为关键的“原始文本块”。

LLM基于这份经过优化的输入材料来生成答案,大部分背景信息通过压缩表示快速获取,而核心细节则通过原始文本进行精确理解。通过这种方式,REFRAG在保留关键信息的同时,最大限度地降低了计算负载。

性能无损,效率提升

根据论文数据,REFRAG框架在多个维度上取得了较为不错的成果。

例如在推理速度方面,以首字生成延迟(TTFT)为例,REFRAG实现了最高30.85倍的加速。与之前的先进方法相比,也取得了3.75倍的提升。

这意味着在需要快速响应的场景下,系统的延迟可以得到有效控制。

Meta超级智能实验室首篇论文:重新定义RAG

其次,实验还表明,在获得显著加速的同时,REFRAG在困惑度(Perplexity)以及多种下游任务(如问答、摘要)的准确率上,与使用完整上下文的基线模型相比没有性能损失

此外,由于压缩技术使得模型能在同等计算预算下处理更多信息,上下文窗口等效扩大了16倍,这在某些任务上反而带来了性能增益。

据了解,这个方法的设计不仅适用于RAG,也适用于多轮对话、长文档摘要等其他需要处理长上下文信息的任务。

总而言之,Meta超级智能实验室的这项研究,通过巧妙的算法设计,有效解决了当前大模型在处理长上下文时面临的核心效率问题。REFRAG为开发更高效、更经济、更具扩展性的AI应用提供了一个重要的解决方案。

参考链接:
[1]https://arxiv.org/abs/2509.01092
[2]https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...