8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

1,073次阅读
没有评论

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

有效压缩大规模图像生成模型训练流程

Everlyn 投稿

量子位 | 公众号 QbitAI

超低成本图像生成预训练方案来了——

仅需8张GPU训练,就能实现近SOTA的高质量图像生成效果。

划重点:开源

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

模型名为LightGen,由港科大Harry Yang团队联合Everlyn AI等机构打造,借助知识蒸馏(KD)和直接偏好优化(DPO)策略,有效压缩了大规模图像生成模型的训练流程。

LightGen不仅显著降低了数据规模与计算资源需求,而且在高质量图像生成任务上展现了与SOTA模型相媲美的性能。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

图像inpainting效果belike:

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。

此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。

以下是更多细节。

LightGen长啥样?

文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如Stable Diffusion、DiT等)和自回归(AR)模型为代表的方法取得了显著成果。

然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

为了解决这一难题,香港科技大学Harry Yang教授团队联合Everlyn AI和UCF,提出了LightGen这一新型高效图像生成模型,致力于在有限的数据和计算资源下,快速实现高质量图像的生成,推动自回归模型在视觉生成领域更高效、更务实地发展与应用。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen采用的训练流程主要包括以下关键步骤:

一、数据KD

利用当前SOTA的T2I模型,生成包含丰富语义的高质量合成图像数据集。

这一数据集的图像具有较高的视觉多样性,同时包含由最先进的大型多模态语言模型(如GPT-4o)生成的丰富多样的文本标注,从而确保训练数据在文本和图像两个维度上的多样性。

二、DPO后处理

由于合成数据在高频细节和空间位置捕获上的不足,作者引入了直接偏好优化技术作为后处理手段,通过微调模型参数优化生成图像与参考图像之间的差异,有效提升图像细节和空间关系的准确性,增强了生成图像的质量与鲁棒性。

通过以上方法,LightGen显著降低了图像生成模型的训练成本与计算需求,展现了在资源受限环境下获取高效、高质量图像生成模型的潜力。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

实验效果如何?

作者通过实验对比了LightGen与现有的多种SOTA的T2I生成模型,使用GenEval作为benchmark来验证LightGen模型和其它开源模型的性能。

结果表明,LightGen模型在模型参数和训练数量都小于其它模型的的前提下,在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用DPO方法的情况下,分别达到0.49(80k步训练)和0.53的整体性能分数。

在更高的512×512分辨率上,LightGen达到了可比肩当前SOTA模型的成绩,整体性能分数达到0.62,几乎超过所有现有方法。

特别地,加入DPO方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了DPO在解决合成数据缺陷上的有效性

除此之外,消融实验结果显示,当数据规模达到约100万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益很有限。因此,作者最终选择了200万张图像作为最优的预训练数据规模。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

上图(b)探讨了不同训练迭代次数对GenEval在256与512分辨率下性能的影响。

值得注意的是,在256像素阶段,仅经过80k训练步数便能达到相当不错的性能,这突显了数据蒸馏方法在训练效率上的优势。

团队表示,未来研究可进一步探索该方法在其他生成任务(如视频生成)上的应用,推动高效、低资源需求的生成模型进一步发展。

论文链接:https://arxiv.org/abs/2503.08619
模型链接:https://huggingface.co/Beckham808/LightGen
项目链接:https://github.com/XianfengWu01/LightGen

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...