OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

572次阅读
没有评论

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

自曝上线前已经发现模型“有些不对劲”

GPT-4o更新后“变谄媚”?后续技术报告来了。

OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

CEO奥特曼也做足姿态,第一时间转发小作文并表示:

(新报告)揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

概括而言,最新报告提到,大约一周前的bug原来出在了“强化学习”身上——

上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。

虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。

此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。

一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。

而在看到这篇报告后,目前大多数网友的反应be like:

(你小汁)认错态度不错~

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

具体咋回事儿?接下来一起吃瓜。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

完整事件回顾

4月25日,OpenAI对GPT-4o进行了一次更新。

在官网的更新日志中,当时提到“其更加主动,能够更好地引导对话走向富有成效的结果”。

由于只留下这种模糊描述,网友们无奈之下只能自己测试去感受模型变化了。

结果这一试就发现了问题——GPT-4o变得“谄媚”了

具体表现在,即使只问“天为什么是蓝的?”这种问题,GPT-4o张口就是一堆彩虹屁(就是不说答案)

你这问题真是太有见地了——你有个美丽的心灵,我爱你。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

而且这不是个例,随着更多网友分享自己的同款经历,“GPT-4o变谄媚”这事儿迅速在网上引起热议。

事情发酵近一周后,OpenAI官方做出了第一次回应:

已从4月28日开始逐步回退那次更新,用户现在可以使用一个较早版本的GPT-4o。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

并且在这次处理中,OpenAI还初步分享了问题细节,原文大致如下:

在对GPT-4o个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与ChatGPT的交互如何随时间演变。结果GPT-4o的反馈过于倾向于迎合用户,缺乏真诚性。

除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为:

(1)改进核心训练技术和系统提示,明确引导模型远离谄媚;
(2)建立更多“护栏”,以提高诚实性和透明度;(3)让更多用户在部署之前进行测试并提供直接反馈;(4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。

当时奥特曼也出来表示,问题正在紧急修复中,接下来还会分享更完整的报告。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

上线前已经发现模型“有些不对劲”

现在,奥特曼也算兑现之前的承诺了,一份更加完整的报告新鲜出炉。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

除了一开头提到的背后原因,OpenAI还正面回应了:为什么在审核过程中没有发现问题?

事实上,据OpenAI自曝,当时已经有专家隐约感受到了模型的行为偏差,但内部A/B测试结果还不错。

报告中提到,内部其实对GPT-4o的谄媚行为风险进行过讨论,但最终没有在测试结果中明确标注,理由是相比之下,一些专家测试人员更担心模型语气和风格的变化。

也就是说,最终的内测结果只有专家的简单主观描述:

该模型的行为“感觉”有些不太对劲。

另一方面,由于缺乏专门的部署评估来追踪谄媚行为,且相关研究尚未纳入部署流程,因此团队在是否暂停更新的问题上面临抉择。

最终,在权衡专家的主观感受和更直接的A/B测试结果后,OpenAI选择了上线模型。

后来发生的事大家也都清楚了(doge)。

模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4月27日),已经清楚地意识到模型的行为并未达到预期。

直到现在,GPT-4o仍在使用之前的版本,OpenAI还在继续找原因和解决方案。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

不过OpenAI也表示,接下来会改进流程中的以下几个方面:

1、调整安全审查流程:将行为问题(如幻觉、欺骗、可靠性和个性)正式纳入审查标准,并根据定性信号阻止发布,即使定量指标表现良好;

2、引入“Alpha”测试阶段:在发布前增加一个可选的用户反馈阶段,以便提前发现问题;

3、重视抽样检查和交互式测试:在最终决策中更加重视这些测试,确保模型行为和一致性符合要求;

4、改进离线评估和A/B实验:快速提升这些评估的质量和效率;

5、加强模型行为原则的评估:完善模型规范,确保模型行为符合理想标准,并在未涵盖领域增加评估;

6、更主动地沟通:提前宣布更新内容,并在发行说明中详细说明更改和已知限制,以便用户全面了解模型的优缺点。

One More Thing

BTW,针对GPT-4o的“谄媚行为”,其实有不少网友提出通过修改系统提示词的方法来解决。

甚至OpenAI在第一次分享初步改进措施时,也提到了这一方案。

不过在OpenAI为应对这次危机而举办的问答活动中,其模型行为主管Joanne Jang却表示:

对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

对此你怎么看?

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...