腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

455次阅读
没有评论

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

在32块H20上训练10分钟就能收敛

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

让AI生成的图像更符合人类精细偏好,在32块H20上训练10分钟就能收敛。

腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

当前的扩散模型虽然能通过奖励机制来贴合人类喜好,但存在两个问题:一是优化步骤少,容易出现 “奖励作弊”,也就是模型为了拿高分生成质量差的图;二是需要离线调整奖励模型才能达到好的美学效果,不够灵活。

为此,团队提出两个关键方法:

一个是Direct-Align,通过预先注入噪声,能从任意时间步恢复原图,避免了只在后期步骤优化的局限,减少了 “奖励作弊”。

另一个是语义相对偏好优化(SRPO),它把奖励变成受文本控制的信号,通过添加正面和负面提示词,能在线调整奖励,不用额外数据就能灵活适配需求。

论文公开后,有开发者评价SRPO看起来就像下一代RLHF。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

在整个扩散轨迹上进行优化

研究团队首先指出了现有方法的两个核心痛点:第一,多步去噪过程中的梯度计算成本极高,导致优化只能局限在扩散过程的最后几步;第二,为了达到理想的美学效果,往往需要不断地离线调整奖励模型。

为了解决第一个问题,团队提出了Direct-Align方法。

首先预定义一个噪声先验,通过插值直接从任意时间步恢复原始图像。团队发现,扩散状态实际上就是噪声和目标图像之间的插值。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

这个方法让模型能够从高噪声状态直接恢复出清晰图像,避免了传统方法在早期时间步反向传播时的梯度爆炸问题。实验表明,即使在只有5%去噪进度的极早期阶段,Direct-Align也能恢复出图像的粗略结构。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

更重要的是,这种方法支持在整个扩散轨迹上进行优化,而不是像ReFL、DRaFT等方法那样只能在后期步骤训练。

实验发现,仅在后25%时间步训练会导致严重的奖励黑客问题,模型会过度拟合奖励函数的偏好,比如HPSv2偏好红色调、PickScore偏好紫色图像等。

SRPO让奖励信号更聪明

第二个创新是语义相对偏好优化(SRPO)。传统方法通常需要多个奖励模型来平衡不同的偏好,但团队发现这只是调整了奖励的规模,并没有真正对齐优化方向。

SRPO的核心思想是将奖励重新定义为文本条件信号。具体来说,对于同一张图像,模型会使用正面和负面提示词分别计算奖励,然后取其相对差值作为优化目标。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

在实际应用中,团队只需在原始提示词前添加控制短语(如”. “)就能实现在线调整。实验显示,通过添加”Realistic photo”等控制词,模型生成图像的真实感提升了约3.7倍,美学质量提升了3.1倍。

SRPO能够通过简单的提示词控制实现多种风格调整,包括亮度调节、漫画风格转换等。有趣的是,控制效果的强弱与控制词在奖励模型训练集中的出现频率相关——高频词如”painting”效果最好,而低频词如”Cyberpunk”则需要与其他高频词组合使用。

实验结果

研究团队在FLUX.1-dev模型上进行了全面的实验验证。与ReFL、DRaFT、DanceGRPO等最新方法相比,SRPO在多个评估指标上都取得了最佳成绩。

在HPDv2基准测试的3200个提示词上,SRPO不仅在自动评估指标(Aesthetic Score v2.5、PickScore、ImageReward等)上领先,更重要的是在人工评估中表现出色。团队组织了10名训练有素的标注员和3名领域专家,对500个提示词生成的图像进行了全面评估。

结果显示,在真实感维度上,原始FLUX模型的优秀率仅为8.2%,而经过SRPO训练后飙升至38.9%。在美学质量上,优秀率从9.8%提升到40.5%,总体偏好度更是达到了29.4%的优秀率。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

值得一提的是,DanceGRPO虽然也能提升美学质量,但经常引入不良伪影,如过度的光泽感和明显的边缘高光。相比之下,SRPO生成的图像在保持高美学质量的同时,纹理细节更加自然真实。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

团队还进行了一项有趣的对比实验:他们发现经过短短10分钟SRPO训练的FLUX.1-dev,在HPDv2基准上的表现已经超越了最新的开源版本FLUX.1.Krea。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

论文地址:
https://arxiv.org/abs/2509.06942

参考链接:
[1]https://x.com/_akhaliq/status/1966911634657390890

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...
太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026

太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026

太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026 西风 2025-12-14 11:39:24 来源...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!

低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!

低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源! 闻乐 2025-12-14 21:17:04 来...
万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开! 量子位的朋友们 2025-12-15 10:11:1...