MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

125次阅读
没有评论

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

带来开箱即用的视觉分词器预训练框架VTP

MiniMax海螺视频团队不藏了!

首次开源就揭晓了一个困扰行业已久的问题的答案——

为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果?

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比,模型离完全真正可用总是差一段距离。

So why?问题,大概率就出在视觉分词器(Tokenizer)这个东西身上了。

当算力不再是答案时,真正需要被重新审视的,其实是生成模型的“起点”。

在当前主流的两阶段生成框架中(分词器+生成模型),业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是:

这些成本,几乎没有线性地转化为生成质量的提升

而MiniMax海螺视频团队,不止挑战了这一现实——用实验证明“Tokenizer的scaling能够提升模型性能”。

更关键的是,还带来了一款开箱即用、专为“下一代生成模型”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training(以下简称VTP)。

只需换上这个视觉分词器,即可在不改变下游主模型(如DiT)任何训练配置的情况下,实现端到端生成性能的倍数级提升。

下面详细来看——

传统Tokenizer的缺陷:更好的重建≠更好的生成

要理解VTP存在的意义,首先我们需要回到更基础的问题上——

Tokenizer是什么?它又为何如此关键?

AI生图为例,当前主流的生图模型几乎清一色采用了“两阶段”生成框架:

  • 第一阶段(压缩):使用视觉Tokenizer(如VAE)这个组件,将原始图像压缩并映射到一个潜在空间(latent space)中;
  • 第二阶段(还原生成):再由以扩散模型为核心的生成器(如DiT),在这个潜在空间中学习分布,并逐步还原、生成最终图像。

用一张图来形容这个过程be like(先压缩后还原):

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

而Tokenizer,就是在第一阶段中负责压缩图片信息的组件。

如果没有这个组件,扩散模型就得直接在数百万像素组成的原始像素空间中进行“去噪”和生成——其计算复杂度和内存开销将是天文数字。

因此,Tokenizer称得上是让模型能够在消费级显卡上运行起来的“关键功臣”。

除此之外,Tokenize过程所得的低维潜在表征,其质量直接决定了最终生成图像的语义保真度、细节丰富度以及整体真实性,所以业界也普遍认为——

从某种程度上来说,Tokenize几乎决定了后续生成模型的上限

基于此,人们在研究如何提升下游生成模型的质量时,也不约而同地将重点放在了“如何精准复刻原始像素”上,即要求模型将压缩后的潜在特征(latent)尽可能精准地还原为原始图像。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

而问题,也正出在这里。

传统Tokenizer在追求“像素级重建”时,往往会过度沉迷于捕捉图像的局部纹理、噪点等低层信息,从而忽视了生成任务真正依赖的高层语义与整体结构。

这就像学渣为了应付考试,只想着死记硬背各种试题,却完全不理解题目背后的知识点与逻辑结构。结果真正到了需要举一反三、解决新问题的时候,一下就傻眼了。

在论文中,海螺视频团队将这一现象定义为“预训练缩放问题”(Pre-training Scaling Problem):

更好的像素级重建精度并不能带来更高质量的生成效果

如图所示,传统仅基于“重建”目标训练的Tokenizer(灰线),随着算力投入增加,模型的生成性能不仅没有提升,反而逐渐趋于饱和甚至略微下降。(ps:gFID衡量生成质量,越小越好)

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

由此,论文得出第一个关键发现:重建做得越好,生成反而可能越差。换言之,传统VAE所依赖的纯重建训练范式,在面向生成任务时存在根本性局限。

那么,VTP是如何破局的呢?

VTP破局之道:从像素级重建到强调“理解力”的重要性

事实上,VTP并非横空出世,而是海螺视频团队在长期实践中反复试错与认知迭代的产物。

一些早期探索:从易学性到通用表征学习

在早期工作VA-VAE中,团队注意到:

有些“压缩后的特征”能让后续的扩散模型学得又快又好,而另一些则不能。

基于此,他们提出了“易学性”这一概念——即不同的潜在表征(latents)对于下游生成模型的学习难度截然不同,并期望通过优化latent的某些“友好特性”(如均匀性、频域分布等)来间接改善生成效果。

然而实践发现,这些方法虽有一定效果,却未触及本质。按团队自己的话来说就是:

尝试将易学性等价为可精确计算的单一指标(例如频域分布、均匀性、scale不变性、低秩效应等等)有些过于理想了,这些指标可能和易学性有一定关联,但远不是全部。

就是说,当优化目标被限制在少数可测量指标上时,模型往往只是学会了在特定指标上“刷分”,而没有从根本上学会理解图像的结构与语义(本质上仍未脱离“重建”范畴)。

△在VA-VAE中,团队曾尝试将易学性对应到latent分布的“均匀性”

而经过持续反思,团队逐渐意识到VA-VAE和后来的很多尝试,其深层目标并非仅仅是优化几个指标,而是在试图让latents具备某些更高级的“结构”。其背后逻辑在于:

假如某种latents对于图像中的实体、位置关系具有高度结构化的表达,那么这种结构化表达对于下游diffusion建模来说也会更简洁、更容易,这些方面的生成效果也自然会更好。

这就好比另一种层面上的“大道至简”——当模型真正掌握了物体、关系与语义这些视觉世界的本质规律时,它能应对的任务自然也就越多了(以不变应万变)。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

因此,与其为“易学性”设计脆弱的代理指标,不如直接让Tokenizer去学习人类视觉系统本身所依赖的那种高度结构化、语义化的通用表征

毕竟像CLIP、DINOv2这样的现代通用表征学习方法,正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达,才在多种下游任务中表现出强大的泛化能力。

至此,团队的研究重心正式从“像素级重建”转向了强调理解力的“通用表征学习”。

VTP:回归“压缩即智能”本质

基于这一认知转变,VTP的设计原则变得异常清晰。团队表示:

我们应该融合所有已知有效的表征学习方法来构建一个Tokenizer

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

具体而言,VTP这次率先实现了从只练“重建”到“理解、重建、生成”的联合优化

一是通过图文对比学习,建立高层语义理解

在训练时,团队会给模型看大量图像-文本配对数据(如“一只猫在沙发上”与对应图片),然后要求图片的特征向量和文字的特征向量尽可能接近。

这和之前的CLIP思路一脉相承,但目标更聚焦。CLIP追求的是广义的图文匹配能力,而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时,必须保留与文本对齐的语义结构。

这意味着,生成模型后续接收到的每一个潜在表示,本身就已经是“有语义的”——它不只是一堆像素的压缩,而是携带了“猫”、“沙发”等概念及其关系的结构化表达。和以往相比,“语义注入”被提前到了压缩阶段。

二是通过自监督学习,掌握空间结构与视觉常识

在VTP框架中,自监督学习模块通过结合掩码图像建模(MIM) 和自蒸馏(DINO风格),“迫使”模型去理解图片的空间关系和物体结构。

这个过程会“逼着”Tokenizer来回答不同问题:

  • 通过自蒸馏回答:抛开具体的像素细节,这张图片最核心的视觉主题或概念是什么?(全局语义)
  • 通过MIM回答:根据你看到的“冰山一角”,你能推断出整个“冰山”的形状和结构吗?(结构推理)
  • 二者协同回答:为了识别图片主题或从局部重建整体,哪些视觉线索是决定性、不可缺失的?(聚焦核心)

这一套流程走下来,模型对图像的理解便不再停留在像素层面,而是构建起了结构化的视觉认知。

三是通过重建,保留必要的底层视觉细节

VTP依然保留了重建目标,但它的定位发生了变化——其作用不再是“越准越好”,而是确保潜在空间中仍然保有生成所需的纹理、颜色与边缘等细节信息。

这三重目标并非孤立进行,而是通过一个统一的多任务损失函数进行联合优化:

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

最终,VTP得到的不是一个在某个指标上“特别优秀”的压缩器,而是一个自带理解能力、对生成模型非常友好的视觉Tokenizer。

这里也补充一个细节:为什么他们不像很多工作一样直接使用现有的CLIP或DINOv2作为Tokenizer,而非要投入巨大算力从头预训练一个?

其核心思考在于两点(团队原话如下):

表征真的很重要,我们想要做到很极致。在我们的视角下表征包含了自监督、对比学习、甚至是重建(这些只是已知比较成熟的方法,实际上理想的表征远不止这些),市面上没有一个能够很好地融汇这些方法的模型,我们需要自己训练一个。

基于表征的Tokenizer方案具备scaling的潜力,预训练是最合理的实现方式。如果直接利用已有模型蒸馏或者迁移,会因为setting过于复杂而破坏scaling的性质,也会受限于已有的模型规格而无法做充分的论证。

所以,选择“从头开始”的VTP,其实际表现究竟如何呢?

首次展示了Tokenizer的Scaling Law

概括而言,团队通过VTP得出了两大关键发现:

  • 理解力是驱动生成的关键因素
  • 视觉Tokenizer也具备明确的Scaling Law

先说第一点。

VTP用实验证明,如果只做重建的话,投入资源越多生成反而可能越差。

下图中,代表重建能力的rFID从2.0降至0.5,重建效果变好;但代表生成能力的gFID从55.04升至58.56,生成效果变差。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

而一旦注入“理解力”(即引入CLIP图文对比/SSL自监督任务),模型的生成质量(gFID)会随着理解能力(Linear Probe)的提升而同步变好——

二者呈现明显的正相关,且这种提升会随着训练计算量增加持续推进。相比之下,缺少“理解力”的传统AE Only方案,其生成质量和理解能力很快陷入停滞。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

更进一步,团队在同等算力下对比了不同组合,证明“CLIP+SSL+AE”的联合训练方式上限最高,生成与理解指标均最优。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

基于此,团队训练的VTP在理解、重建、生成方面均交出了不错的答卷——

在ImageNet上的零样本分类准确率达到78.2%,超过了原版CLIP的75.5%,已经具备强通用视觉理解能力;在重建能力上超过了Stable Diffusion的VAE, rFID低至0.36;在生成能力上超过了此前的改进方法VA-VAE,gFID低至2.81

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

更关键的是,在达到相同生成质量的前提下,VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了训练成本。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

这一系列表现共同印证了团队的判断:Tokenizer的“语义理解力”而非单纯的像素重建精度,才是驱动生成性能与效率提升的核心动力

再说第二点,也是更具突破性的一点。

团队在实验中发现,VTP首次展示了Tokenizer的Scaling Law,即生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。

仅从算力维度对比,在不改动下游DiT标准训练配置的前提下,单纯将Tokenizer的预训练计算量放大,VTP就能为最终生成效果带来65.8%的性能提升,且提升曲线仍未触顶。

反观传统自编码器(AE),其性能在仅投入约1/10计算量时便已饱和,且继续增加算力不仅收益微乎其微,甚至可能导致生成质量倒退。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

以上发现表明,接下来除了在主模型上投入更多参数/算力/数据之外,还可以通过Tokenizer的scaling来提升整个生成系统的性能

这个结论,乍一看可能会让人有点转不过弯:什么时候,Tokenizer也开始谈scaling了?

在大模型语境里,“Scaling Law”几乎天然只属于主模型——参数更大、数据更多、算力更猛,性能就该继续往上走。至于Tokenizer,则长期被视作一个“前置模块”,主打一个够用就行,做完重建任务就退场。

但VTP的出现却改变了这一现实,团队表示:

VTP在latents易学性和通用表征学习之间建立起了明确关联,从而第一次将Tokenizer作为scaling的主角,展现出全面的scaling曲线和扩展方向

就是说,如果Tokenizer只是被用来精准复刻像素,那么无论怎么堆算力,提升都将很快见顶;而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征,事情就完全不一样了。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

比如对整个行业来说,由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达,因此其产出的视觉表征天然具备多任务协同的潜力。

这有点像先把世界翻译成了一种统一、结构化的“视觉语言”。

一旦这套语言确定下来,下游无论是理解任务(如分类、检测),还是生成任务(如图像合成、编辑),都不再需要各自“重新学怎么描述这个世界”,而只是站在同一套底层表达之上,做不同的事情。

从这个角度看,VTP天然适合用来构建“理解-生成统一模型”。正如团队所言:

Tokenizer层面的统一,是更本质的统一

也因此,此次VTP的开源就不单单只是提供了一个组件那么简单了。

其更大的价值或许在于,它为整个行业提供了一条新的、且被实验证明行之有效的路径——

在主模型之外,Tokenizer同样是一个值得长期投入、且具备明确scaling回报的核心环节

目前,VTP的论文和模型权重已经公开,动手能力强的朋友也可以尝试体验下:

换一个视觉Tokenizer,模型性能就能变得不一样的feeling(手动狗头)。

【传送门】
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1
模型:https://huggingface.co/collections/MiniMaxAI/vtp

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 12 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026 西风 2025-12-13 12:5...
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了 鹭羽 2025-12-13 22:43:25 来源...
美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型 鹭羽 2025-12-13 22:41:00 来源:量子位 三连发:真实场景...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...