告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

404次阅读
没有评论

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块

CUHK MMLab团队 投稿

量子位 | 公众号 QbitAI

AI竟然画不好一张 “准确” 的图表?

AI生图标杆如FLUX.1、GPT-Image,已经能生成媲美摄影大片的自然图像,却在柱状图、函数图这类结构化图像上频频出错,要么逻辑混乱、数据错误,要么就是标签错位。

这背后是视觉生成领域的长期偏向:过度追求自然图像的美学效果,却忽视了结构化图像对 “事实准确性” 的核心需求。

更关键的是,现有视觉理解模型(如Qwen-VL)已能精准解析图表数值、公式逻辑,而生成/编辑模型却难以匹配这种理解能力,形成显著能力鸿沟,严重阻碍了“能看又能画” 的统一多模态模型发展。

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

对此,来自港中文MMLab、北航、上交等校的联合团队提出了首个综合性解决方案,可应用于结构化视觉生成与编辑领域。

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块,旨在让多模态模型不仅能看懂图,还会画准图

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

下面是更多详细内容。

结构化图像的 “三大能力刚需” 与 “一大发展瓶颈”

结构化非自然图像(图表、公式、表格、示意图等)虽不像风景、人像图像那样 “美观”,却是教育、科研、办公的核心工具,其生成与编辑需满足三大刚性要求:

  • 精准文本渲染:例如公式符号无错漏、表格数值对齐、图表标签匹配;
  • 复杂布局规划:布局规划远比自然图像复杂,例如柱状图的轴范围适配数据、函数图像的曲线贴合定义域、流程图的节点连接无误;
  • 多模态推理:例如接到 “将饼图转为折线图” 指令时,需先理解原饼图的数值分布,再按折线图规则重构结构。

但现有方案完全无法满足这些需求:

  • 数据端:主流数据集(如JourneyDB、OmniEdit)以自然图像为主,缺乏 “代码-图像严格对齐” 的结构化样本(如无法通过代码验证图表数值准确性);
  • 模型端:统一多模态模型侧重自然图像的指令跟随,缺乏对细粒度结构化语义的理解(如分不清图表的X轴与Y轴逻辑);
  • 评估端:CLIP Score、PSNR等指标只关注像素或整体语义的相似性,无法衡量 “数值是否正确”“标签是否匹配” 这类细粒度准确性。

更关键的是,视觉理解与生成的 “能力鸿沟” 持续扩大 —— 模型能 “看懂” 图表里 “类别A的数值是5.2”,却 “画不出” 一个数值准确的同类图表,这成为统一多模态模型发展的关键卡点。

从 “数据” 到 “基准” 的全链条突破

为解决上述问题,论文构建了 “数据-模型-基准” 三位一体的解决方案,每一环都直击领域痛点:

1、数据层:130万代码对齐的结构化样本库

结构化图像的 “准确性” 可通过代码精准定义(如Matplotlib、LaTeX的绘图代码),因此团队采用 “代码驱动” 思路构建数据集:

  • 收集200万可执行绘图代码,覆盖数学函数、图表、表格等6类场景,执行代码生成 “代码-图像对”;
  • 用GPT-5生成 “双指令”:既生成 “视觉编辑指令”(如 “将函数y=x²的阴影区间缩至x∈[-1,1]”),也生成对应的 “代码编辑指令”(如 “修改fill_between条件为x>=-1且x<=1”),确保编辑前后的图像与代码严格对齐;
  • 最终筛选出130万高质量样本,并为每个样本添加 “思维链标注”(如生成任务的详细分析、编辑任务的多步推理过程),解决指令模糊问题。

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

数据构建流程

2、模型层:轻量融合VLM,兼顾结构化与自然图像能力

基于FLUX.1 Kontext(支持生成与编辑统一的扩散Transformer),团队设计 “轻量级VLM整合方案”,避免传统重投影器的训练开销:

  • 引入Qwen-VL来增强对结构化图像输入的理解能力,通过 “轻量MLP连接器” 将其提取的高层语义(如图表数值逻辑、公式符号关系)对齐到FLUX.1的特征空间,仅训练少量参数即可实现能力迁移;
  • 采用 “三阶段渐进训练”:先对齐VLM与扩散模型特征(仅训MLP),再混合自然图像与结构化数据训练(训MLP+骨干),最后用带思维链的样本提升推理能力,确保模型不丢失自然图像生成能力。

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

三阶段渐进式训练流程

3、基准层:StructBench与StructScore,精准评估 “准确性”

针对现有评估指标的缺陷,团队提出专用基准与指标:

  • StructBench 基准:包含1714个分层抽样样本,覆盖数学、图表、表格等6类任务,每个样本附带 “细粒度Q&A对”(如 “Q:柱状图 X 轴标签是什么?A:类别1/2/3”),用于验证事实准确性;

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

评估流程

  • StructScore 指标:通过 “原子化Q&A+开放回答评分” 评估 —— 将图像属性拆分为单个开放式问答(避免多属性混淆),比较模型回答与标准答案的相似性进行赋分。生成任务看Q&A准确率,编辑任务则以 “0.1×视觉一致性+0.9×指令遵循” 加权(优先保证编辑有效性),该指标与人类偏好的皮尔逊相关系数超0.9,远优于传统指标。

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

皮尔逊相关系数对比

显著缩小 “理解-生成” 鸿沟

研究人员将15个主流开源闭源模型进行对比,实验结果如下所示。

告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

由此可见,本方案展现出明显优势:

  • 闭源仍领先,但整体仍不令人满意:无论生成还是编辑,最佳模型的事实准确率约在“对半”附近,结构化视觉仍有大量提升空间;
  • 数据比架构更关键:不同开源范式(扩散/自回归/离散扩散)与不同视觉编码器并无一方法“通吃”;高质量、严格对齐、含推理标注的数据是决定性因素;
  • 推理能力关键:在复杂任务(如图表类型转换)上尤为明显;给多种模型接入相同的“显式推理轨迹”也能持续提升,显示“扩展推理算力”对结构化生成/编辑至关重要。
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统

而本项研究不单单是为了解决 “AI画图表” 的问题,还能够推动统一多模态模型发展:

  • 填补领域空白:首次系统梳理结构化视觉生成的核心需求,构建首个全链条解决方案,让社区关注这一被忽视的重要方向;
  • 突破能力瓶颈:通过 “理解-生成” 的能力对齐,为统一多模态模型(既能看又能画、既能解析又能创作)提供关键技术支撑;
  • 落地实际需求:为教育领域自动生成数学图像、科研领域绘制实验图表、办公领域编辑表格等场景,提供 “准确可靠” 的AI工具。

研究团队希望为构化视觉生成领域打下第一块系统性基石,并期待更多研究者关注这一方向,共同推动多模态AI向 “精准理解、可靠生成” 迈进。

因为当AI能精准生成一张数值无误的图表、一笔不错的数学公式时,它才真正从 “美化工具” 走向 “生产力工具”

论文链接:https://arxiv.org/pdf/2510.05091
项目链接:https://structvisuals.github.io/
GitHub链接:https://github.com/zhuole1025/Structured-Visuals

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...