35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

1,263次阅读
没有评论

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

  新智元报道  

编辑:编辑部

【新智元导读】Nature刊登了纽约大学等机构的研究人员在人工智能领域最新突破,证明神经网络具有类似人类语言的泛化性能,再一次印证了AI发展的无限潜力!

35年来,认知科学、人工智能、语言学和哲学领域的研究人员一直在争论神经网络是否能实现类似人类的系统泛化。

具体来说,人们一直认为,AI无法像人类一样具有「系统泛化(systematic generalization)」能力,不能对没有经过训练的知识做到「举一反三」,几十年来这一直被认为是AI的最大局限之一。

最近,NYU和西班牙庞培法布拉大学的研究者首次证明——它可以!

他们在这个方向取得了里程碑式的突破,论文已经刊发在了Nature上。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

论文链接:https://www.nature.com/articles/s41586-023-06668-3#auth-Brenden_M_-Lake-Aff1

研究人员提出了一种新的神经网络训练方法——MLC(Meta-Learning for Compositionality),能够大幅提高神经网络「举一反三」的能力,甚至能够超越人类!

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

人类之所以能够做到举一反三,快速掌握复杂语言的含义或者某种技巧,是因为人类天生具有「系统泛化」的能力。

举个例子,如果我们从未听过「秦始皇戴小红帽——赢到姥姥家了」这个短语,但知道「秦始皇叫嬴政」,知道「小红帽」的故事,就能理解这个歇后语,还能把它用在正确的地方。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

但就算是「先进如GPT-4」的AI模型却还是无法理解这个歇后语,即使他知道「秦始皇叫嬴政」,以及「小红帽」的故事。

研究人员通过一种新的神经网络训练方法——MLC在变化的任务环境中训练模型,使模型逐步获得组合词汇含义的系统性推理能力。

结果表明,MLC模型不仅可以做出符合逻辑的响应,还能捕捉人类偏差性错误的规律,在人机对比中展现出惊人的人类化思维。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

甚至,通过MLC训练出来的模型,系统泛化能力已经碾压了GPT-4。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

论文作者同时还强调,如果孩子们在自然成长的体验中也有类似MLC这样的组合和激励机制,就可以解释人类的系统性泛化能力的来源。

这项研究可能会对人工智能和认知科学都产生深远影响。

它表明合适的方法可以让标准神经网络获得人类语言思维的核心特征——系统性复合推理能力。

尽管当今最强大的AI模型(例如 ChatGPT)可以在许多对话场景中发挥作用,但在对未训练过的知识的理解能力上,仍然存在不足。某种程度上导致了模型「幻觉」问题一直无法有效解决。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

针对LLM的局限,作者强调,「研究通过MCL来解锁了系统性泛化(SG)的更加强大的能力之后,也可能帮助大语言模型来克服自身固有的缺陷。」

理解系统性泛化(Understanding Systematic Generalization)

这一突破性的研究在于系统性概括的概念。当我们人类在不同的环境时,拥有毫不费力地适应和使用新学单词的能力。

例如,「Photobomb」是一个英语俚语,指的是在拍照时突然出现在照片中,通常是有意而为之,以吸引注意力或制造幽默效果。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

一旦我们理解了「Photobomb」这个词,我们就会本能地知道如何在各种情况下使用它,无论是「两次Photobomb」还是「在使用Zoom期间进行Photobomb」。

同样地,当人类理解「狗追猫」这样的句式结构之后,可以轻松掌握「猫追狗」的含义。

然而,人类固有的举一反三的理解和泛化能力,对于人工智能来说一直是具有挑战性的前沿领域。

传统的神经网络是AI研究的支柱,但是它不具备理解和泛化能力,神经网络只会努力合并一个新单词,否则需要靠大量的样本进行广泛的训练。

几十年来,这种受限的泛化性一直是AI研究人员争论的话题,关于神经网络作为人类认知过程的真实反应是否可行,引发了大量的讨论。

在本文中,研究人员提供了证据,证明神经网络可以通过研究人员提出的MLC(Meta-Learning for Compositionality)系统实现类似人类的系统泛化。

MLC 是研究人员提出的一种优化程序,旨在通过一系列少样本合成任务来激励系统性(如下图1)。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

研究人员展示了MLC如何通过实践来提高神经网络的组合技能(Compositional Skills)。

MLC获得一个新词(或规则系统)并尝试系统地使用它。在不断地修正和更新「理解」之后,可以对下一个新词重复该过程。

研究人员构建的MLC只使用了常见的神经网络,没有添加符号机制,也没有手工设计的内部表示或归纳偏差。

相反,MLC提供了一种通过高级指导和/或直接人类示例来指定所需行为的方法;然后要求神经网络通过元学习(Meta Learning)来培养正确的学习技能。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

为了证明MLC的能力,研究人员在相同的系统泛化测试中并排对比评估了人类和机器的能力。

具体来说,研究人员,在伪语言(pseudolanguage)指令学习任务中使用代数或数学概念,以测试人类和机器学习系统对这些概念的理解和应用能力。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

还研究了人们对高度模糊语言的探测反应。这些语言探测的设计目的是了解人类在面对模糊信息时的倾向或偏差。

即人类如何进行归纳推理,以及这些倾向或偏差是如何可能促进或者阻碍系统性泛化。

在对结果进行了评估之后,研究人员发现,MLC实现(甚至超过)人类水平的系统泛化!

当人类行为偏离纯粹代数推理时,MLC 还会产生类似人类的错误模式。

这表明神经网络是一种卓越的建模工具,可用于细致入微的人类组合行为。

在最后一组模拟中,研究人员展示了 MLC 如何提高流行基准的准确性,以实现少样本系统泛化。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

研究细节(The Study in Detail)

为了更深入地研究神经网络的功能及其语言泛化的潜力,作者进行了全面系统的实验,其不仅研究了机器,25名人类也交叉地参与其中,以此作为AI的表现基准。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

在实验中使用了一种伪语言,即参与者不熟悉的单词,这样能够确保参与者真正第一次学习这些术语,从而为测试泛化性能提供一个可信的baseline。

如上图(左侧),原始类别包括「dax、wif、lug」等单词,它们象征着类似于「jump、skip」跳过与跳跃的基本动作(下图左侧)。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

另一方面,使用更抽象的功能词,比如「blicket、kiki、feg」,为之前的原始词术语的应用和组合制定了规则,从而推断出「skip twice、walk backwards」等序列。

在培训参与者的过程中还引入了视觉元素,每一个原始单词都与特定颜色的圆圈相关联。

例如,如下图,红色圆圈代表「dax」,而蓝色圆圈代表「lux」。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

制定好颜色单词映射规则后,接下来,向参与者展示原始语和功能词的组合,并附带彩色的圆圈图案。

例如,一个短语「fep」与三个红色圆圈配对,说明「fep」可能代表一个动作的三次重复。

此外,为了衡量参与者的理解能力和系统性的概括能力,还向它们展示了原始词和功能词的负责组合。参与者的任务是准确地推断出圆圈的颜色和数量,并进一步给出正确的排列顺序。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

影响力和专家意见(Implications and Expert Opinions)

这项研究不仅仅是人工智能研究史册上的又一个增量,还代表了范式的转变。

神经网络的性能密切反映了类人系统的泛化能力,这引起了广泛学者和行业专家的关注。

著名约翰霍普金斯大学语言专业认知科学家Dr. Paul Smolensky表示:

「在训练过程中能让网络拥有系统化能力的重大突破。」

如果可以训练网络进行系统泛化,那么这些模型就可能彻底改变聊天机器人、虚拟助手等诸多应用程序。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

然而,这种发展不仅仅是技术的进步,它还触及了AI界长期存在的争论:

「神经网络是否真的可以视作准确模拟人类认知的工具?」

在过去的近四十年里,这个问题一直是AI研究者们争论不休的焦点。尽管有些人相信神经网络有潜力模拟类似人类思维过程,但另一些人依然对它们的天生局限表示怀疑,特别是在语言泛化领域。

这项研究的结果带来了新的希望,使人们变得更加乐观。

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

正如纽约大学认知计算科学家、该研究的共同作者Brenden Lake所指出的,神经网络过去可能一直在取得艰难的进展,但通过正确的方法,它们确实可以被调整和训练,以更好地反映人类认知的各个方面。

迈向人机无缝协同的未来

AI从起初的萌芽阶段到如今强大,经历了不断地演化和突破。最近在训练神经网络系统的概括语言方面取得的成就再次证明AI的无限潜力。

当我们处于这个关头时,有必要认识到这些进步的广泛应用。

我们正一步步接近未来:机器不仅能理解人类的的语言,还能掌握细微的差别和语义,从而促进更加无缝和直观的人机交互未来。

参考资料:https://www.nature.com/articles/s41586-023-06668-3

35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4


35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4
35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...