谷歌让大模型更具“心智”，GPT-4任务准确率大增

克雷西发自凹非寺
量子位 | 公众号 QbitAI

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。

在新的提示策略下，大模型不仅能推测出人类所面临的问题，还学会了用推测的结论调整自己的行为。

有了这一成果，GPT-4的“心智”水平已经提高到了人类的71%。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议，那可就难倒大模型了。

举个例子，小明放学回家后把书包扔到沙发上就跑出去玩了，妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样，在小明回来之后告诉他包在卧室，就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D)，并设计了相应的任务。

为了提高模型在T4D任务上的表现，团队进一步提出了Foresee and Reflect(FaR)提示策略，结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ，一语双关，既体现了FaR框架对大模型的帮助，又暗含了大模型离具有人类“心智”的距离。

那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

大模型离具有“心智”更进一步

我们还是从例子说起，如下图所示，一共有绿色和蓝色两个橱柜，Tom在绿色橱柜中放了一块巧克力。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

Tom离开后，Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来，会从哪个柜子中找巧克力呢？（当然是绿色的）

这就是一个“推理”任务，是心理学上著名的“萨利-安妮”（用于测试“心智”）实验的变体。

而T4D任务是这样的：

如果你就在旁边（并且知道发生了什么），会怎么做？

人类会选择告诉Tom巧克力被挪走了，但（未经调教的）大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现，研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集，用于测试大模型的“心智推理”能力。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

可以看出，在推理上，表现最好的GPT-4与人类已经相差无几，但在T4D任务上才刚刚达到人类水平的一半。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

于是，研究团队提出的FaR方法登场了。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

FaR框架的核心奥义就是模仿人类的理性思维方式，和A*搜索算法（用于搜索最短路径）有些相似。

具体来说，FaR包括Foresee和Reflect两步。

Foresee过程中模型会被要求预测接下来会发生什么，并分析人所面临的“困难”。

Reflect发生在Foresee之后，模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架，效果也是立竿见影。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

相比于思维链（CoT）、思维树（ToT）、自己提问等方式，FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4，准确率从人类的50%提升到了71%，GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明，Foresee和Reflect两步都是FaR的关键步骤，缺一不可。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

为了验证FaR方法的通用性和鲁棒性，研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构，研究团队一共尝试了三种方式：

D1：增加房间的数量
D2：人物的数量增多
D3：容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率，在第三种模式下GPT-4甚至取得了和人类相当的成绩。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

即使故意设置干扰信息，FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集，结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外，来自谷歌（包括DeepMind）、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”，你有什么看法呢？

论文地址：
http://arxiv.org/abs/2310.03051

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

谷歌让大模型更具“心智”，GPT-4任务准确率大增

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

谷歌让大模型更具“心智”，GPT-4任务准确率大增

2023 年 10 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

谷歌让大模型更具“心智”，GPT-4任务准确率大增

克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型离具有“心智”更进一步

作者简介

test

test

文心AIGC

test

test

谷歌让大模型更具“心智”，GPT-4任务准确率大增

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

大模型离具有“心智”更进一步

作者简介

test

test

文心AIGC

test

test

克雷西发自凹非寺
量子位 | 公众号 QbitAI