GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

604次阅读
没有评论

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

三大维度全面评估GPT-4o图像能力

GPT-4o图像生成架构被“破解”了!

最近一阵,“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红,人们随之好奇:

4o图像生成的架构底层逻辑到底是什么?GPT-4o究竟强在哪?存在哪些短板?

作为解答,北京大学、中山大学等多家科研机构共同推出GPT-ImgEval,首次系统评估了GPT-4o在图像生成上的真实表现。

这份量化评估基准不仅囊括了生成质量编辑能力知识推理,还尝试揭示GPT-4o背后的可能架构,还探讨了它生成图像的可检测性问题

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

下面具体来看。

GPT-4o架构揭秘:可能使用了扩散+自回归混合方案

GPT-ImgEval团队尝试“反向破解”GPT-4o的图像生成架构。

研究团队在论文中提出了4种候选架构方案(见下图),尽管细节略有不同,但有一点是一致的:GPT-4o很可能采用的是自回归主干+扩散头的混合结构。

通俗来说,它的工作流程可能是这样的:文本或指令→ 自回归模块理解语义 → 生成中间视觉Token → 扩散模型将这些Token解码成图像。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

当然,架构猜测不能仅靠想象。为此,研究团队设计了一套严谨的实证方法

  1. 先选取一组统一的文本提示(prompt),分别使用自回归模型(VAR)和扩散模型(Diffusion)各自生成1万张图像作为对比样本;
  2. 利用这些图像训练一个二分类器,让它学会识别图像是“AR风格”还是“Diffusion风格”;
  3. 然后,用同样的Prompt交给GPT-4o生成图像,将这些图像输入该分类器进行识别。

也就是说,整个过程中,提示词保持完全一致,只看不同模型生成的图像“长得像谁”,以此判断GPT-4o的生成方式更接近哪类结构。

结果很直接:GPT-4o生成的图像几乎全部被识别为“扩散风格”,这就从图像风格维度验证了GPT-4o的确可能用了扩散模型作为解码器。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

除了对视觉解码器的分析,研究人员也深入探讨了视觉编码方式。他们指出,一些研究(如UniTok)认为基于向量量化(VQ)的编码器可能会削弱模型的语义理解能力。

因此,作者认为如果采用了pixel encoder,其大概率是连续(非VQ)的而不是离散(VQ)的,并基于此提出了四种可能的完整架构示意图。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

三大维度全面评估GPT-4o图像能力

GPT-ImgEval聚焦三类核心任务,对GPT-4o进行了系统评估:

  • 文本生成图像(GenEval):通过对物体数量、颜色、位置、组合属性等细粒度维度进行测评,验证模型对文本的理解与图像的构造能力。
  • 指令编辑图像(Reason-Edit):模拟用户给出修改指令后,模型在保留图像语义基础上进行局部编辑的能力,如替换、删除、变色等。
  • 基于世界知识的语义合成(WISE):考察模型是否能将对世界常识、文化背景、科学原理等知识真正“显性化”为图像输出。

为了支持这一系统评估,研究团队开发了一套针对GPT-4o的自动化交互脚本,解决了当前该模型尚未开放图像生成API的现实问题。

这套脚本直接与GPT-4o网页界面交互,模拟真实用户行为:

  1. 自动输入提示词(Prompt)、点击提交
  2. 自动抓取生成图像并存储归档
  3. 每次请求会新开浏览器窗口,确保不同任务之间上下文不相互干扰
  4. 支持任务批量运行,可实现大规模、可重复的图像生成任务调度

最终,GPT-ImgEval的整体工作流如下图所示:

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

在文本生成图像(GenEval)任务中,GPT-4o取得了0.84的总得分,超越目前所有扩散类与自回归类图像生成模型。

尤其在以下几项中表现突出:数量控制(0.85)、颜色绑定(0.92)、空间位置(0.75)、属性组合(0.61)。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

下图是一些GPT-4o使用GenEval基准中的prompt生图的具体例子:

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

而在图像编辑任务(Reason-Edit)中,GPT-4o得分高达0.929,领先第二名超过0.35,说明其在指令理解和局部控制上表现极其稳定。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

在知识合成(WISE)任务中,GPT-4o同样大放异彩,多个子维度(生物、文化、物理等)得分均超过0.9,总分0.89,远高于当前开源模型(普遍在0.4~0.5之间)。

这说明GPT-4o具有强大的世界知识和推理能力,这应该是得益于GPT-4o这种统一多模态框架。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

更多研究结论

GPT-4o vs Gemini 2.0 Flash:多轮编辑对比

研究团队还对GPT-4o与Google的Gemini 2.0 Flash进行了多轮图像编辑对比。

除了性能与架构机制,GPT-4o在实际的使用体验中也展现出了强劲的竞争力。研究团队对其与Google最新发布的 Gemini 2.0 Flash 进行了多轮编辑任务的实测对比。

  1. GPT-4o支持完整的多轮对话式编辑流程,上下文一致性强
  2. Gemini响应速度更快,但每轮需重新上传图像,缺乏连续性
  3. 连续修改、复杂指令理解、图像语义保持方面,GPT-4o表现出更高的稳定性

从整体趋势来看,两者在编辑轮数增加后均出现一致性下降,但GPT-4o下降更缓,保持更稳。

GPT-4o与Gemini 2.0 Flash多轮编辑一致性对比如下图所示:

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

这一对比结果也进一步验证了:融合大模型语义理解能力的图像生成系统,在交互式创作任务中,正在展现出压倒性优势。

GPT-4o仍存五大问题,图像量化评估并非无解

研究团队总结出GPT-4o当前的五个常见生成难点

  1. 无法严格保持原图尺寸与边框比例,有时会自动裁切或缩放
  2. 强制锐化,即使用户要求生成模糊图,也会被模型“优化”成高清
  3. 编辑偏暖、全图色调变化,即使只修改小部分,可能全图色调甚至是全局都会被一定程度修改
  4. 复杂场景失真,多人或人-物体交互场景易出现姿态不自然或结构错乱
  5. 非英文文本支持较弱,如中文标识常出错,难以在复杂背景准确生成

这些问题不仅影响使用体验,也提示我们——GPT-4o仍在追求“自然感”与“精确控制”之间寻找平衡。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

这些图像能被检测出来吗?

除了感知层面的观察和评估,研究团队进一步思考一个关键问题:GPT-4o生成的图像,是否真的可以“以假乱真”?

为此,研究者使用多个主流图像取证模型,对GPT-4o生成的图像进行了系统性评估。

结果显示,包括Effort、FakeVLM在内的多种检测器,对GPT-4o图像的识别准确率普遍超过95%,最高接近99.6%。

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器

不仅仅停留在数值层面,研究团队还对量化评估成功的原因进行了机制层面的归因分析

  1. GPT-4o可能在图像生成过程中引入了超分辨率模块,通过上采样插值导致明显伪影
  2. 模型有过度锐化与细节增强倾向,视觉效果虽然“精致”,却留下了被取证模型捕捉的痕迹
  3. 在用户未要求修改时,仍可能出现尺寸、色彩的隐性变化,破坏了图像一致性
  4. GPT-4o生成图像色调普遍偏暖,整体风格趋同,易被量化评估模型建立“风格识别模式”

可量化评估,并非弱点,而是AIGC安全设计的基线能力

研究团队认为,是否可量化评估,不应成为衡量生成模型能力强弱的标准,而应被视为评估其可控性与安全性的重要指标。

在未来的AIGC系统设计中,“逼真”固然重要,但“可识别”、“可追踪”同样不可或缺。GPT-4o生成图像中的伪影、色彩偏好等特征,也正是推动生成量化评估研究的重要突破口。

这也正是GPT-ImgEval的差异化亮点之一:不仅做量化评估,更从安全机制的角度进行深入诊断和前瞻探索

GPT-4o很强,但“终局”远未到来

GPT-ImgEval不仅验证了GPT-4o在图像生成上的优势,更指出了它仍需突破的短板。尤其是在可控性、多语种处理、局部编辑稳定性等方面,仍有不少提升空间。

GPT-ImgEval不仅系统性验证了GPT-4o在图像生成、图像编辑与知识合成三大任务中的领先表现,更进一步揭示了其架构特征、失败模式与安全边界。

该研究不仅在评测维度上实现了覆盖广泛、量化精准,也从架构判别、编辑可控性、多轮理解能力和伪影检测等多个层面,对GPT-4o进行了技术全景式诊断

研究团队认为,该工作的重要意义在于:

1、提供系统化多模态评估范式:首次从“生成-编辑-推理”全流程出发,建立综合图像能力测试框架;

2、推动闭源模型的“可解释评测”研究:在无法访问模型细节的前提下,建立架构猜测和行为归因机制;

3、强调通用多轮编辑场景的实用价值:用用户视角验证语义理解一致性与细节保真性,为交互设计落地提供参考;

4、补齐图像生成安全性研究缺口:通过可检测性实证,发现图像中的上采样/超分伪影、色彩特征,推动AIGC取证技术演进。

更多细节欢迎查阅原论文。

论文地址:
https://arxiv.org/pdf/2406.19435
代码链接:
https://github.com/PicoTrex/GPT-ImgEval
数据集下载:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...