国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

1,437次阅读
没有评论

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

  新智元报道  

编辑:Lumina

【新智元导读】IMG Arena的高级软件工程师 Johan LAJILI认为在LLM能够理解概念、通过图灵测试时,我们就该承认它具有推理能力了。

GPT-4或LLM有推理能力吗?这是个存在已久的争议性问题。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索,并不具备真正的推理能力。

但也有大量的论文研究宣称LLM在多项推理任务中表现优异。

现在,来自IMG Arena的高级软件工程师 Johan LAJILI在自己的博客中发表了文章,坚定地支持LLM具有「智能」、「推理」以及「逻辑」的能力。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

并且,面对现有的诸多对LLM推理能力的质疑,Johan也给出了相当详细的解释。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

博客地址:https://lajili.com/posts/post-3/

那么,就让我们来看看,Johan是如何证明LLM是具备推理能力的。

LLM只是一个「字词接龙」?

「LLM只是一个预测下一个单词的模型」,这是反对LLM具有推理能力的主要观点。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

这个观点通常来自于那些精通技术人工智能的人,实际上,这个说法也是正确的。

在进行工作时,GPT-4每次只能预测一个单词(或者更具体地说是一个token)。用户给它一个提示或一段需要填充的文本时,它就会使用其神经网络找到最可能跟在后面的单词。

但是,将LLM的算法与智能手机键盘上的单词建议算法相提并论是相当短视的。

事实上,为了能够准确预测具有意义的句子,GPT-4必须具备一种表示概念的内部方式,例如「对象」、「时间」、「家庭」以及其他一切的可以被表述的存在。

这不仅是找到一个与前一个词有关联的词语,LLM还需理解这些词语的含义,才能准确地回复用户提出的问题。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

而LLM对概念的理解是通过大规模训练建立起来的。

通过这个过程,可以证实LLM具有对「概念」的概念,即它们可以对物理世界中的事物以及它们之间的相互作用进行表示。

这意味着GPT-4不仅可以预测下一个词语,还可以理解更高层次的语义概念,使其能够生成连贯且有意义的文本。

但只能够理解「概念」还不足以进行推理,因为推理还要求能够组合不同的概念去解决问题。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

LLM无法解答X谜题与逻辑问题

随着人工智能技术的进步,传统的图灵测试,即让人类分辨与自己对话的是不是人工智能,在ChatGPT出世后失去了效用。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

现在的图灵测试变得更加复杂。

同时,一些声称能够检测出内容是否由人工智能生成的公司也陆陆续续出现,但这些尝试基本上都失败了。

此外,对于人工智能生成的内容,连专业的语言学家都有一半的概率都无法区分辨认。

这些尝试检测人工智能生成内容的失败恰恰证明了我们不再区分人与人工智能二者生成的内容。

现在对人工智能生成内容进行区分时,通常是通过一些明显的迹象,比如句子中出现的「根据我在2021年9月之前的训练…」此类表述。

但这对人工智能是不公平的。

如果我们唯一能用来识别它的是其自身的一些写作习惯,那么我们显然已经到了一个承认它的写作技巧与人类相似的阶段。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

回到LLM能否推理和逻辑谜题的问题上。

Jeremy Howard在他的演讲中很好地解释了LLM如何进行推理。

通常,一个优秀的、系统的Prompt会对GPT-4的结果产生巨大影响。

如果用户能够详细说明问题背景和逻辑步骤,GPT-4通常可以解决这些谜题。

如微软亚洲研究院、北大、北航等机构的研究人员,通过97个回合的「苏格拉底式」严格推理,成功让GPT-4得出了「P≠NP」的结论。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

论文地址:https://arxiv.org/abs/2309.05689

与人类不同,GPT-4没有思维和口头语言之间的区分。

对于人类来说,在不思考或下意识的情况下解决问题时,意味着问题非常简单,这本质上是凭记忆回答的。

如在计算2×8时,我们会非常迅速地得出答案是16,此时我们的大脑没有经过任何思考。

但如果是解决一个复杂的数学问题,或猜一个谜语,一个编程问题,我们在回答问题前就得在脑海中思考一番了。

而这,就是推理。

更复杂的问题可能需要我们首先考虑如何解决它,然后再尝试解答。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

在这方面,GPT-4与人类没有区别。

但GPT-4的思考过程作为回应的一部分是可以被看到的。

也许未来的GPT-5将有一个「思考」部分的响应,但不会默认显示出来。

在GPT-4能否具有推理能力这一点上,实际上只涉及成本以及效率的问题。

就像在估算餐厅的餐费或进行税务申报时不会有相同程度的双重检查一样,让GPT-4对用户提出的每个问题都进行一番详细的论证是非常低效的。

LLM的幻觉和意识

关于LLM的另一个经典问题是这些模型存在着偏见和幻觉等问题。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

这的确是一个棘手的难题,但这不代表LLM不能进行推理。

举个例子,人无法避免偏见。有些人会意识到这一点,而另一些人可能从未思考过这个问题。

在近代以前,人们还坚信地球是宇宙的中心,认为空气就是「无」。

但我们可以因此下定论说近代以前的人都没有推理能力吗?

同样地,模型会出错也不意味着模型不会推理。

因为正确或者持续正确并不是推理的定义,而是全知的定义。

但关于GPT-4是否存在意识,我的回答是没有。

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

意识的存在是非常哲学性的问题,一定程度上也取决于个人的看法。

但我认为意识是在很长一段时间内产生的,并需要一个「自我」来照顾。

每当用户打开GPT-4,选择在一个聊天框开始对话时,这实际上是在创造一个全新的存在。

对话结束后,这个存在要么被删除。要么保持在静态状态。

缺乏长期记忆,缺乏情感,不能自发地对外部刺激做出反应,都是阻碍意识产生的限制因素。

但我们也可以乐观地相信这些问题会在未来被解决。

也许,现在就有一群聪明人正在研究这些问题。

而GPT-4是否存在意识,只是关于「意识」这个谜题的一小部分。

参考资料:

https://lajili.com/posts/post-3/

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力


国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...