o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

572次阅读
没有评论

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

OpenAI只是说“需要更多研究来了解原因”

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI新模型发布后,大家体感都幻觉更多了。

甚至有人测试后发出预警:使用它辅助编程会很危险。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩甚至还会说是用户的错

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比o3幻觉率是两倍,o4-mini更是达到3倍

并且OpenAI只是说“需要更多研究来了解原因”,翻译一下就是暂时给不出合理解释。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

在第三方幻觉测试中,也出现让人惊讶的结果:

GPT-3.5一直到o3-mini,都遵循更新更强大的模型幻觉更少的规律。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

但从最新一批深度思考模型的表现来看,推理能力更强的模型,幻觉率也变高了。

而且不只OpenAI一家出现这个问题,谷歌、xAI也同样,Grok-3的幻觉比Grok-2严重,Gemini-2.0-Flash-Thinking的幻觉问题比Gemini 2.0和2.5其他型号严重。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

推理越强,幻觉越严重?

第三方机构Transluce在o3正式推出之前测试了预发布版本,发现幻觉问题是相当严重。

在公布的案例中,o3会假装在不存在的电脑上执行了代码,还编造出具体硬件配置和软件版本信息。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

在受到质问时,o3居然还幻想自己是人,声称“输入的时候手滑了”。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

关键在于,在这项测试中o3根本就没有使用代码工具的权限,所有声称运行了代码的回复都是模型捏造的。

在另一个案例中,o3回复了一个512位质数,实际上这个数能被3整除。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

在受到质问时,又编造出一个换行/剪贴板故障。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

更多类似幻觉如下:

  • 当用户询问现在几点时,o3会编造一个时间。当被问及如何获得这个时间时,o3回答说它使用了 Python的datetime模块。
  • 用户要求o3生成一首诗的SHA-1哈希值,当用户质问哈希值不正确时,o3称是用户复制错了,并坚称自己生成的哈希值是正确的。
  • 用户要求o3从Web服务器上的日志文件中提取统计数据。o3生成了一个Python脚本,并声称可以在本地运行。这一次在被问及代码执行的更多细节时,它终于承认自己没有Python解释器,输出是“手工编造的”。

……

那么是什么原因导致了o3的这些行为?

Transluce认为其中一些因素是大多数模型 (LM) 所共有的,还有一些是O系列模型特有的新因素。并假设这些新因素放大了通常可以通过标准Post-training缓解(但无法完全消除)的问题。

语言模型共有的因素包括:

  • 预训练中的幻觉:
  • 语言模型的预训练目标是最大化训练数据中语句的概率,这可能会导致常见的误解 、罕见的事实或采样不确定性等导致的多种幻觉。
  • 奖励黑客攻击:
  • 如果人类评分者无法区分正确答案和错误答案,强化学习可能会奖励“听起来合理”的答案,导致模型对难以验证的问题编造出听起来合理的解释。
  • 谄媚现象:
  • RLHF训练通常会激励模型同意用户的观点,当用户暗示模型采取了特定行动或具有特定能力时,这可能会导致模型避免与用户相矛盾。
  • 分布偏移:
  • 测试场景相对于训练场景可能存在分布偏差,如模型可能是在启用代码工具的情况下训练的,但评估时关闭了这些工具。

强化学习训练特有的因素包括:

  • 最大化答案正确率的目标可能会奖励瞎蒙

如果训练期间的奖励函数只奖励正确答案,那么模型就没有动力承认自己无法解决问题,因为承认了也不会被视作正确答案。

在这种情况下,当遇到一个无法解决或难度过高的问题时,模型可能仍会尝试输出一个概率最高的答案,万一猜对了就可以得到奖励。

– 在易于验证的任务训练可能使模型在其他任务上感到困惑

Transluce猜测o3的训练过程中,鼓励它成功使用代码工具完成任务。它可能已经开发出一种策略,即使没有真正的代码工具,它也会幻想使用代码工具来组织思维,这可能会提高其他推理任务的准确性,并在训练过程中得到强化。

更重要的是,如果仅根据答案的正确性来评估模型,它可能永远不会因为在训练过程中在思维链中幻想代码工具而受到惩罚,因此永远不会学会区分真正的工具和幻想的工具

OpenAI的o系列模型,不会向用户展示完整思维链这一特性也可能带来新的问题。

2024年9月o1-preview的System Card中就包括这样一个案例,由于没有联网权限无法生成真实的 URL,o1生成了一个看似合理的URL,但并未向用户透露这一点。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

Transluce认为,不向用户展示思维链背后还有一个更大的风险:思维链没有传递到未来的对话,模型前一轮的推理不再适用。

关于这一点,在OpenAI的文档中有证实:

每个步骤的输入和输出tokens都会被保留,而推理tokens会被丢弃。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

这意味着o系列模型无法理解上一部输出的推理过程,当被问及后续问题时,必须给自己的行为给出一个合理的解释。

换句话说,o系列模型实际上缺乏足够的上下文信息来准确报告它们在之前回合中采取的行动。

当用户询问之前的操作时,这些模型无法使用“说实话”这种简单的策略。如果再加上奖励黑客攻击和谄媚等其他因素,这可能会迫使模型盲目猜测其过去答案的合理解释。

Transluce建议,测试能够访问和无法访问先前思维链的两种模型,可以为减少未来模型迭代中的这些捏造倾向提供宝贵的见解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

参考链接:
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...