VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

217次阅读
没有评论

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

还实现了多任务通用

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;
  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

具体来看,SVG选择以DINOv3预训练模型作为语义提取器。

原因是DINOv3经过大规模自监督学习,能够精准捕捉图像的高层语义信息,让猫、狗、汽车等不同类别的特征边界能够清晰可辨,从根源上解决了语义纠缠问题。

但团队也发现,DINOv3提取的特征偏重于宏观语义,会丢失颜色、纹理等高频细节,因此又专门设计了一个轻量级的残差编码器来进行细节补充,针对性地学习这些被忽略的细节信息。

而为了让「语义」和「细节补充」能够完美融合,SVG还加入了关键的分布对齐机制

这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。

实验数据也印证了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标,数值越低越优)从6.12升至9.03,生成质量大幅下滑。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。

训练效率方面,在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

推理效率方面,消融实验中,5步采样时,SVG-XL的gFID为12.26,而SiT-XL(SD-VAE)为69.38、SiT-XL(VA-VAE)为74.46。这表明在较少的采样步数下,SVG-XL就能达到较好的生成质量。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

不仅是生图,SVG的特征空间继承了DINOv3的能力,可直接用于图像分类、语义分割、深度估计等任务,且无需微调编码器。例如,在ImageNet-1K分类任务中Top-1精度达到81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

团队介绍

团队由郑文钊担任项目负责人,目前是加州大学伯克利分校博士后。此前,他在清华大学自动化系获博士学位,研究集中在人工智能和深度学习领域。

同样来自清华自动化系的史明磊和王皓霖目前均在攻读博士学位,研究重点为多模态生成模型。

其中,史明磊透露自己还在创办一家专注于人工智能应用的公司。

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan则来自快手可灵团队。

其中,Pengfei Wan是快手可灵视频生成模型负责人。

从谢赛宁团队的RAE到清华快手的SVG,尽管技术路线各有侧重,但从两者的突破可以看出,预训练视觉模型的特征空间,或许已经具备了替代VAE的能力。

论文地址:https://arxiv.org/abs/2510.15301
代码地址:https://github.com/shiml20/SVG

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...