大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

1,189次阅读
没有评论

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题,一个没做对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但是呢,这种人类乍一看绝对会错的图,它又成功答对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

以及这样的错位图,它对了又没完全对。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

看完这些,是不是觉得很迷?

整个一“该对的不对,该错的又对了”。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

测试者则表示:

在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

所以,这到底怎么回事?

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

(1)除了开头的两颗小树图,还有这个:

问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)还有这张稍微复杂一点的:

两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(3)这张就更别提了,直接被糊弄地死死的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色

其次是会产生动态错觉的图。

(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)这张也没有难倒它。

但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

接下来是另一类比较平面的错觉图。

(1)如开头所示的这张:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

一般人类真的表示很懵圈,但是GPT-4V居然对了。

But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

总的来说,对于这种错觉陷阱是完全没问题。

(2)我们自己也测了一个长度错觉题:

结果是so easy~

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

再来一组找隐藏信息的图。

很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

最后是一组真实世界的错位图。

(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)这张惊悚图,也OK。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

为什么会这样?

所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

首先,对于颜色错觉的图,网友首先认为是提示词的问题。

就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

我们自己的测试也是如此:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

甚至有网友还用测色计实测了一把:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但!又有人指出如果只显示一部分时,两者明明一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

另外,网友发现:

如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

因此,还有人戏谑:

看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(手动狗头)

你认为该如何让GPT-4V的错觉识别能力更强呢?

One More Thing

值得一提的是,我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

比如这张判断球颜色的:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

还有这个:

尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

参考链接:
[1]
https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...