大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

624次阅读
没有评论

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

BrowseComp-ZH团队 投稿

量子位 | 公众号 QbitAI

你以为大模型已经能轻松“上网冲浪”了?

新基准测试集BrowseComp-ZH直接打脸主流AI。

BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:

GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%

目前,BrowseComp-ZH的全部数据已开源发布。

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

研究团队直言:

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

为什么我们需要中文网页能力测试?

如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难?举几个例子你就明白了:

  • 信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台
  • 常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”
  • 搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事

因此,英文测试集“翻译一下”根本不够。

需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。

BrowseComp-ZH是怎么炼成的?

研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:

  • 百度/Bing/Google三大搜索引擎首屏无法直接命中答案
  • 多个主流大模型在检索模式下也无法直接答对
  • 经过人工验证,问题结构清晰,且仅有唯一答案

最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:

尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:

  • 多数模型准确率低于10%,仅少数能突破20%
  • OpenAI DeepResearch以42.9%位列第一,仍远未“及格”

研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。

四大发现,揭示中文网页任务的“模型死角”

1. 仅靠记忆不行,得真本事

纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。

2. 有推理的模型,表现更好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。

3. 搜得多 ≠ 搜得准,多轮策略才是王道

具备多轮检索能力的AI搜索产品全面胜出:

  • DeepResearch:42.9%
  • 豆包Deep Search:26.0%
  • Perplexity Research模式:22.6%

相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。

4. 搜索功能“翻车”?接入反而变差

最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%

研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。

数据集开放!欢迎模型开发者挑战

BrowseComp-ZH的全部数据已开源发布。

研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。

下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。

论文地址:
https://arxiv.org/abs/2504.19314
代码地址:
https://github.com/PALIN2018/BrowseComp-ZH

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开! 量子位的朋友们 2025-12-15 10:11:1...
苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题 闻乐 2025-12-15 12:16:09 来源:...
马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多” 一水 2025-12-15 14:22:42 来源:量子位 ...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈 鱼羊 2025-12-15 15:28...