美团视频生成模型来了！一出手就是开源SOTA

鹭羽
2025-10-27
15:23:30

来源：量子位

可稳定输出5分钟级别的长视频

美团，你是跨界上瘾了是吧！（doge）

没错，最新开源SOTA视频模型，又是来自这家“送外卖”的公司。

模型名为LongCat-Video，参数13.6B，支持文生/图生视频，视频时长可达数分钟。

从官方释出的demo来看，模型生成的视频不仅更加真实自然，而且懂物理的能力又双叒增强了。

无论是空中滑板：

还是一秒特效变身：

抑或是第一视角下，全程需要保持画面一致的骑车视频（时长整整有4分多种）：

仔细看，视频的AI味儿浓度确实降低不少。

而且从测评成绩来看，其表现也相当亮眼——文生视频能力在开源模型中处于顶尖水平，整体质量优于PixVerse-V5和Wan2.2-T2V-A14B，部分核心维度甚至可与谷歌最新、最强闭源模型Veo3媲美。

而且由于采用的是允许商用的MIT协议，连Hugging Face高级主管也用三连问来表示惊叹。

中国团队竟然发布了一个MIT协议的基础视频模型？？？

以及其长视频生成能力（稳定输出5分钟）也被视为，“我们离视频AI的终极形态又更进一步”。

so，一家外卖公司出品的视频模型究竟如何？来看更多案例。

文生/图生视频开源SOTA，还能像制作连续剧一样生成长视频！

整体而言，美团这次发布并开源的LongCat-Video具备以下功能：

文生视频：可生成720p、30fps高清视频，语义理解与视觉呈现能力达开源SOTA级别；
图生视频：能够保留参考图像的主体属性、背景关系与整体风格等；
视频延长：核心差异化能力，可基于多帧条件帧续接视频内容。

文生视频方面，从官方提供的案例来看，这个模型尤为强调对真实世界的理解能力。

一眼看去，主页上一溜的足球、体操、跳舞等视频：

仅以其中的“水上芭蕾”来看，模型面临的挑战不可谓不艰难——既需要具备高度的细节捕捉能力，还需要能够处理复杂的光影效果、环境模拟和动态场景。

而LongCat-Video几乎都考虑到了，整体完成度be like：

图生视频方面，这不双十一到了，所以各大商家也能拿来做一些更实用的宣传视频了：

当然，由于提供了原始参考图，所以图生视频上通常我们更看重模型是否能保持前后一致。

而当给了LongCat-Video一张机器人正在工作的图片后，它直接立马生成了机器人“居家办公”的日常vlog。

一会儿拿桌上的小熊、一会儿拿水杯、甚至下班关电脑……不同动作下，桌面及周围的环境均未发生“异变”，扛住了一致性挑战。

当搞定了一致性这个“老大难”后，LongCat-Video的玩法也就更多了。

白天当壁画，晚上出来打游戏可还行（谁说不是真·破壁呢？）。

还能制作动画大电影：

此外，LongCat-Video最核心的能力还在于视频延长，它能像制作连续剧一样生成分钟级长视频。

一个视频搞定后，只需接着续写提示词，最终就能生成一个完整情节或片段。

比如下面这个接近半分钟的视频，就是通过以下提示词一步步实现的（中译版）：

1、厨房明亮通风，白色橱柜和木质台面交相辉映。一块新鲜出炉的面包放在砧板上，旁边放着一个玻璃杯和一盒牛奶。一位身着碎花围裙的女士站在木质台面旁，熟练地用锋利的刀切着一块金黄色的面包。面包放在砧板上，她切的时候，面包屑四处飞溅。

2、镜头拉远，女人放下手中的刀，伸手去拿牛奶盒，然后将其倒入桌上的玻璃杯中。

3、女人放下牛奶盒。

4、女人拿起牛奶杯，抿了一口。

怎么样？是不是有拍电影电视剧的感jio了~

敲黑板，由于LongCat-Video本身就经过视频连续任务的预训练，所以它能够制作长达数分钟的视频，而不会出现颜色漂移或质量下降的情况（一般可稳定输出5分钟级别的长视频，且无质量损失）。

美团表示，之所以推出LongCat-Video，核心瞄准的还是世界模型这一前沿领域：

作为能够建模物理规律、时空演化与场景逻辑的智能系统，世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识，AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

而为了构建视频模型LongCat-Video，美团这次在技术方面也是进行了一系列创新和突破。

背后技术原理

LongCat-Video只有13.6B，但集成了文生视频、图生视频和视频续生三大任务于一体。

具体来说，整个模型以Diffusion Transformer （DiT）为框架设计，其中每个Transformer块都由3D自注意力层、交叉注意力层，以及采用SwiGLU激活函数的前馈网络组成。

并使用AdaLN-Zero调制机制，将每个Transformer块均集成为专用的调制多层感知机，再在自注意力和交叉注意力模块中，采用RMSNorm归一化以提升训练稳定性，另外还对视觉token的位置编码使用3D RoPE。

然后将所有任务都定义为视频续生任务，通过条件帧数量进行区分：

文本到视频：0帧条件。
图像到视频：1帧条件。
视频续生：多帧条件。

统一混合输入后，将无噪声的条件帧和待去噪的噪声帧沿着时间轴拼接，结合时序步配置，以实现单模型原生支持多任务。

而为了适配这类输入，研究团队还在架构中设计了一种带键值缓存（KVCache）的块注意力机制，该设计可以确保条件token不受噪声token的影响，且后续可以缓存并复用条件token的KV特征，提升长视频生成效率。

其中最瞩目的长视频生成能力，主要通过原生预训练设计和交互式生成支持两大核心特性实现。

首先LongCat-Video摒弃了传统的“先训练基础视频生成能力，再针对长视频任务微调”的训练路径，而是直接在视频续生任务上预训练。

这样做可以直接从源头解决长视频生成中的累积误差问题，在生成分钟级视频的同时，避免色彩漂移和质量下降。

另外LongCat-Video还支持交互式长视频生成，允许用户为不同片段设置独立指令，进一步扩展了长视频创作的灵活性。

为了提高视频生成的推理效率，团队提出了一种从粗到精的生成范式，先是让模型生成480p、15fps的低分辨率低帧率视频，再通过三线性插值将分辨率升级至720p、30fps，同时由一个LoRA训练的精炼专家模型进行细节优化。

再引入块稀疏注意力，将注意力计算量降至原始的10%以下，配合上下文并行的环形块稀疏注意力，进一步优化高分辨率生成效率。

结合CFG蒸馏和一致性模型（CM）蒸馏，将采样步数从50步缩减至16步，实现在单H800 GPU上，单个720p、30fps视频生成可在分钟内完成，效率提升超10倍。

另外针对视频生成场景，使用组相对策略优化 （GRPO）算法，提升GRPO在视频生成任务中的收敛速度与生成质量。

在训练过程中，分别采用三类专用奖励模型：

视觉质量
（VQ）：结合HPSv3-general和HPSv3-percentile进行评估。
运动质量
（MQ）：基于VideoAlign模型微调，并使用灰度视频训练避免色彩偏好。
文本-视频对齐度
（TA）：同样基于VideoAlign模型微调，但保留原始的彩色输入。

然后进行多奖励加权融合训练，避免单一奖励的过拟合和奖励欺骗问题，实现视觉、运动、对齐能力的均衡提升。

在完成数据构建和模型训练后，研究团队首先对其进行内部基准测试，主要评估文生视频和图生视频性能。

其中文生视频，包含文本对齐、视觉质量、运动质量、整体质量四个维度。

实验结果表明，LongCat-Video在整体质量得分中超越PixVerse-V5和Wan2.2-T2V-A14B，视觉质量接近Wan2.2-T2V-A14B，仅略逊于闭源模型Veo3。

图生视频则在此基础上，新增图像对齐维度评估，最终结果中LongCat-Video的视觉质量得分最高（3.27），说明整体质量具有竞争力，但图像对齐与运动质量仍有提升空间。

另外研究团队还进行了VBench 2.0的公开基准测试，LongCat-Video总得分位列第三（62.11%），仅次于Veo3（66.72%）和Vidu Q1（62.7%）。

值得注意的是，LongCat-Video在常识性维度（运动合理性、物理定律遵循）上处于第一的领先优势，凸显出该模型优秀的物理世界建模能力。

One More Thing

而这已经不是这家外卖公司第一次“不务正业”了……

从八月底开始，美团龙猫大模型就在不停地发发发，先是端出来了最经典的开源基础模型LongCat-Flash-Chat。

总参数560B，可以在仅激活少量参数的前提下，实现性能比肩市面上的主流模型，尤其是在复杂的Agent任务中表现突出。

而且现已登陆API平台使用～

一个月不到，又上新了LongCat-Flash-Thinking，在逻辑、数学、编码、Agent多任务中均达成SOTA水平，是国内首个同时具备“深度思考+工具调用”和“非形式化+形式化”推理能力的LLM，可以实现更低成本、更优性能。

随后又专为语音LLM推出了LongCat-Audio-Codec，可以同时对语义和声学token以低帧速率（16.7Hz/60ms）并行提取，实现高效离散化，并能够在极低的比特率中保持高清晰度。

以及专为复杂现实生活场景（外卖送餐、餐厅点餐、旅游出行）打造的Agent评测基准——VitaBench，可以系统性衡量Agent在推理、工具使用和自适应交互方面的能力。（泪目，终于回归老本行.jpg）

……

最后再到今天的视频生成模型，毫无疑问，“跨界”AI正在成为这家外卖公司的新常态。

开源地址：
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
项目主页：
https://meituan-longcat.github.io/LongCat-Video/

2025 年 10 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

美团视频生成模型来了！一出手就是开源SOTA

美团视频生成模型来了！一出手就是开源SOTA

文生/图生视频开源SOTA，还能像制作连续剧一样生成长视频！

背后技术原理

One More Thing

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定