GPT-4不会图形推理?“放水”后准确率依然只有33%

1,052次阅读
没有评论

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4的图形推理能力,竟然连人类的一半都不到?

美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%

而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。

GPT-4不会图形推理?“放水”后准确率依然只有33%

虚线表示16项任务的平均表现

这项实验结果发表后,迅速在YC上引发了广泛热议。

赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。

GPT-4不会图形推理?“放水”后准确率依然只有33%

但另一边,不少网友对这个结论也有所质疑,简单说就是:

不能说是错的,但说完全正确也无法让人信服。

GPT-4不会图形推理?“放水”后准确率依然只有33%

至于具体的原因,我们继续往下看。

GPT-4准确率仅33%

为了评估人类和GPT-4在这些图形题上的表现,研究者使用了自家机构于今年5月推出的ConceptARC数据集。

ConceptARC中一共包括16个子类的图形推理题,每类30道,一共480道题目。

GPT-4不会图形推理?“放水”后准确率依然只有33%

这16个子类涵盖了位置关系、形状、操作、比较等多个方面的内容。

具体而言,这些题目都是由一个个像素块组成的,人类和GPT需要根据给定的示例寻找出规律,分析出图像经过相同方式处理后的结果。

作者在论文中具体展示了这16个子类的例题,每类各一道。

GPT-4不会图形推理?“放水”后准确率依然只有33%
GPT-4不会图形推理?“放水”后准确率依然只有33%
GPT-4不会图形推理?“放水”后准确率依然只有33%

结果451名人类受试者平均正确率,在各子项中均不低于83%,16项任务再做平均,则达到了91%。

而GPT-4(单样本)在“放水”到一道题可以试三次(有一次对就算对)的情况下,准确率最高不超过60%,平均值只有33%。

GPT-4不会图形推理?“放水”后准确率依然只有33%

早些时候,这项实验涉及的ConceptARC Benchmark的作者也做过类似的实验,不过在GPT-4中进行的是零样本测试,结果16项任务的平均准确率只有19%。

GPT-4不会图形推理?“放水”后准确率依然只有33%

而多模态的GPT-4v,准确率反而更低,在一个48道题组成的小规模ConceptARC数据集中,零样本和单样本测试的准确率分别只有25%和23%

GPT-4不会图形推理?“放水”后准确率依然只有33%

而研究者在进一步分析了错误答案后,发现人类的有些错误看上去很可能是“粗心导致”,而GPT则是完全没有理解题目中的规律

GPT-4不会图形推理?“放水”后准确率依然只有33%

针对这些数据,网友们普遍没什么疑问,但让这个实验备受质疑的,是招募到的受试人群和给GPT的输入方式。

受试者选择方式遭质疑

一开始,研究者在亚马逊的一个众包平台上招募受试者。

研究者从数据集中抽取了一些简单题目作为入门测试,受试者需要答对随机3道题目中的至少两道才能进入正式测试

结果研究人员发现,入门测试的结果显示,有人只是想拿钱,但根本不按要求做题。

迫不得已,研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务,且通过率要达到99%。

不过,虽然作者用通过率筛人,但是在具体能力上,除了需要受试者会英语,对图形等其他专业能力“没有特殊要求”

而为了数据的多样化,研究者在实验后期又将招募工作转到了另一个众包平台,最终 一共有415名受试者参与了实验。

尽管如此,还是有人质疑实验中的样本“不够随机”。

GPT-4不会图形推理?“放水”后准确率依然只有33%

还有网友指出,研究者用来招募受试者的亚马逊众包平台上,有大模型在冒充人类

GPT-4不会图形推理?“放水”后准确率依然只有33%

再来看GPT这边的操作,多模态版本比较简单,直接传图然后用这样的提示词就可以了:

GPT-4不会图形推理?“放水”后准确率依然只有33%

零样本测试中,则只要去掉相应的EXAMPLE部分。

但对于不带多模态的纯文本版GPT-4(0613),则需要把图像转化为格点,用数字来代替颜色

GPT-4不会图形推理?“放水”后准确率依然只有33%

针对这种操作,就有人表示不认同了:

把图像转换成数字矩阵后,概念完全变了,就算是人类,看着用数字表示的“图形”,可能也无法理解

GPT-4不会图形推理?“放水”后准确率依然只有33%

One More Thing

无独有偶,斯坦福的华人博士生Joy Hsu也用几何数据集测试了GPT-4v对图形的理解能力。

这个数据集发表于去年,目的是测试大模型对欧氏几何的理解,GPT-4v开放后,Hsu又用这套数据集给它测试了一遍。

结果发现,GPT-4v对图形的理解方式,似乎“和人类完全不同”。

GPT-4不会图形推理?“放水”后准确率依然只有33%

数据上,GPT-4v对这些几何问题的回答也明显不如人类。

GPT-4不会图形推理?“放水”后准确率依然只有33%

论文地址:
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247
参考链接:
[1]https://news.ycombinator.com/item?id=38331669
[2]https://twitter.com/joycjhsu/status/1724180191470297458

「中国AIGC数据标注产业全景报告(量子位智库出品)」下载

大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未像今天这样被充分挖掘。数据标注,正迎来关键洗牌时刻。

量子位智库发布《中国AIGC数据标注产业全景报告》,点击可查看并下载完整报告>> 中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口

GPT-4不会图形推理?“放水”后准确率依然只有33%


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

GPT-4不会图形推理?“放水”后准确率依然只有33%

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...