8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

1,071次阅读
没有评论

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

有效压缩大规模图像生成模型训练流程

Everlyn 投稿

量子位 | 公众号 QbitAI

超低成本图像生成预训练方案来了——

仅需8张GPU训练,就能实现近SOTA的高质量图像生成效果。

划重点:开源

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

模型名为LightGen,由港科大Harry Yang团队联合Everlyn AI等机构打造,借助知识蒸馏(KD)和直接偏好优化(DPO)策略,有效压缩了大规模图像生成模型的训练流程。

LightGen不仅显著降低了数据规模与计算资源需求,而且在高质量图像生成任务上展现了与SOTA模型相媲美的性能。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

图像inpainting效果belike:

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。

此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。

以下是更多细节。

LightGen长啥样?

文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如Stable Diffusion、DiT等)和自回归(AR)模型为代表的方法取得了显著成果。

然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

为了解决这一难题,香港科技大学Harry Yang教授团队联合Everlyn AI和UCF,提出了LightGen这一新型高效图像生成模型,致力于在有限的数据和计算资源下,快速实现高质量图像的生成,推动自回归模型在视觉生成领域更高效、更务实地发展与应用。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen采用的训练流程主要包括以下关键步骤:

一、数据KD

利用当前SOTA的T2I模型,生成包含丰富语义的高质量合成图像数据集。

这一数据集的图像具有较高的视觉多样性,同时包含由最先进的大型多模态语言模型(如GPT-4o)生成的丰富多样的文本标注,从而确保训练数据在文本和图像两个维度上的多样性。

二、DPO后处理

由于合成数据在高频细节和空间位置捕获上的不足,作者引入了直接偏好优化技术作为后处理手段,通过微调模型参数优化生成图像与参考图像之间的差异,有效提升图像细节和空间关系的准确性,增强了生成图像的质量与鲁棒性。

通过以上方法,LightGen显著降低了图像生成模型的训练成本与计算需求,展现了在资源受限环境下获取高效、高质量图像生成模型的潜力。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

实验效果如何?

作者通过实验对比了LightGen与现有的多种SOTA的T2I生成模型,使用GenEval作为benchmark来验证LightGen模型和其它开源模型的性能。

结果表明,LightGen模型在模型参数和训练数量都小于其它模型的的前提下,在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用DPO方法的情况下,分别达到0.49(80k步训练)和0.53的整体性能分数。

在更高的512×512分辨率上,LightGen达到了可比肩当前SOTA模型的成绩,整体性能分数达到0.62,几乎超过所有现有方法。

特别地,加入DPO方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了DPO在解决合成数据缺陷上的有效性

除此之外,消融实验结果显示,当数据规模达到约100万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益很有限。因此,作者最终选择了200万张图像作为最优的预训练数据规模。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

上图(b)探讨了不同训练迭代次数对GenEval在256与512分辨率下性能的影响。

值得注意的是,在256像素阶段,仅经过80k训练步数便能达到相当不错的性能,这突显了数据蒸馏方法在训练效率上的优势。

团队表示,未来研究可进一步探索该方法在其他生成任务(如视频生成)上的应用,推动高效、低资源需求的生成模型进一步发展。

论文链接:https://arxiv.org/abs/2503.08619
模型链接:https://huggingface.co/Beckham808/LightGen
项目链接:https://github.com/XianfengWu01/LightGen

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...