Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

737次阅读
没有评论

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

训练时引入运动信息表示

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM

VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

哪怕变化又大又迅速、动作又复杂的舞蹈,也看起来像真的一样,而且还是两个人同步:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

像倒立这样的操作,同样可以轻松驾驭:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

而且不需要额外数据或缩放,就能无缝集成到不同规模的DiT模型当中,带来运动效果的提升。

有网友表示,第一眼看上去就和真的一样,也许到今年年底,我们看不到区别了。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

运动效果超越Sora、Gen3

VideoJAM在处理运动场景时,不仅视觉上效果更好,也更加贴合物理规律。

比如吹灭蜡烛时火苗的晃动,以及渐进式的熄灭过程,连燃烧产生的白烟也没有落下:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

写书法时毛笔的运动处理得也很精细,并且做到了笔迹和纸上的字迹同步(虽然不知道写的是什么):

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

还有用手捏史莱姆时的形状变化,以及内部产生的流体效果,连手松开时的粘连效果也体现了出来:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

甚至是三个球来回抛的杂技表演,也能很好地体现出抛物线轨迹:

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

另外,作者也针对文本/外观/运动一致性、视频质量等指标,在4B和30B的DiT模型上分别运用VideoJAM进行了评估,并与主流视频生成模型进行了对比。

结果在4B和30B规模下,相比于原始的DiT模型,运动质量从78.3和88.1,分别提升到了93.7和92.4,提升比例分别为19.67%和4.88%。

并且应用VideoJAM后,运动质量也超过了Gen3、Sora等其他对比模型。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

那么,VideoJAM是如何做到的呢?

训练中引入运动信息

在训练和推理阶段,VideoJAM针对经典的DiT架构都进行了一定补充。

具体来说,在训练阶段,VideoJAM采用了联合外观-运动表示(Joint Appearance-Motion Representation)。

通过在模型中引入额外的运动预测任务,让模型在生成视频的同时也学习如何预测对应的运动。

为实现联合外观-运动表示,VideoJAM对现有视频生成模型进行了两处关键性改动,添加了输入和输出两个线性投影层。

  • 输入投影层将外观特征(视频帧的表示)和运动特征拼接后映射到模型的隐藏空间,形成一个联合的潜在表示,这个潜在表示融合了静态外观信息和动态运动信息。
  • 输出投影层则从模型的联合潜在表示中,分别解码出视频的外观预测和运动预测,其中外观预测用于生成最终的视频帧,运动预测则用来评估模型对时间一致性的理解。

在这一过程当中,运动是用(Optical Flow),也就是视频帧之间像素的位移的形式进行表示的。

处理时,VideoJAM将光流转换成RGB格式,像素运动方向被映射为色调,强度则被映射为亮度或透明度,使其可以像普通视频一样被模型处理。

这种处理方式无需额外训练复杂的运动编码器,且兼容性强,可以方便地嵌入到现有的视频生成模型中。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

到了推理阶段,VideoJAM采用了内部引导机制(Inner-Guidance Mechanism),进一步增强生成视频的运动一致性。

这种机制不依赖外部条件,而是使用模型自身在每个生成步骤中预测的运动信息来动态调整生成过程,可以实时捕捉生成视频的动态变化。

和其他扩散模型一样,生成视频的初始输入是随机噪声,模型首先对噪声进行处理,生成初步的视频帧和对应的运动预测。

生成过程中,模型会使用当前帧的运动预测作为指导信号,调整下一个时间步的生成方向。

这种反馈机制之下,模型不断审视自己生成的动作是否连贯,并在发现不一致时自动进行调整。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

具体到生成进程,可以分成两个阶段,内部引导主要应用在其中第一个:

  • 粗略阶段:在生成初期(大约前50%的步骤),重点关注大范围的运动连贯性,如整体方向和节奏。
  • 细化阶段:在生成后期,转向优化细节,如肢体动作的微调和物体交互的物理合理性。

消融实验表明,作者采用的光流表示和内部引导机制正是VideoJAM实现高运动一致性的关键。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

论文地址:
https://arxiv.org/abs/2502.02492
项目主页:
https://hila-chefer.github.io/videojam-paper.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...