潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

1,009次阅读
没有评论

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

视频生成大模型的直接应用价值就是突破现实限制

编辑部 发自 凹非寺

量子位 | 公众号 QbitAI

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。

不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内,有这样一家从加速训练出发的初创公司,正在为此努力。

它就是潞晨科技,创始人尤洋博士毕业于UC伯克利,后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外,开发视频生成模型VideoOcean,为行业带来更具性价比的选择。

在MEET 2025现场,尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 视频生成模型应该实现精细化文本控制、任意机位/任意角度、角色一致性、风格定制化
  • 3年后或许就能迎来视频生成的GPT-3.5/GPT-4时刻
  • 视频生成大模型的一个直接应用价值就是突破现实的限制,极大降低真实场景复现难度。

(为更好呈现尤洋的观点,量子位在不改变原意的基础上做了如下梳理)

3年后或是视频大模型的GPT-3.5时刻

今天非常开心来到量子位大会,非常开心和大家交流,今天讲一下我们在视频大模型领域做的一些工作。

首先是我和我的创业公司潞晨科技的介绍。我从UC伯克利毕业到新加坡国立大学任教,很荣幸创办了潞晨科技。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod,当时世界上最大的模型还是BERT。我们帮助谷歌,将(当时)世界上最大模型的训练时间从3天压缩到76分钟

也很荣幸,去年华为盘古大模型的一个工作也是我们一起来做的,并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练,我们希望让大模型训练更快、成本更低。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

步入今天的话题,来重点介绍一下视频生成大模型。

我们打造了一个产品Video Ocean,现在正处在测试阶段。先来介绍一下产品,后面再探讨我觉得视频大模型将会如何发展。

首先,我觉得视频大模型第一个重要的方面是,它应该能够实现精细化的文本控制。

其实我们今天都在用AI去生成大模型了,我们肯定希望它能够精准反映出想要的东西。但很遗憾,比如现在用文生图APP去生成图片时,还是会发现很多图片内容无法做到精准控制,所以我认为这方面还有很大的发展空间。

在Video Ocean模型训练过程中,我们做了一些初步探索。一个比较好的例子,我们能够精准地提供一些描述,戴着墨镜,长的胡茬的欧洲男人。显而易见这个视频里面确实是我们想要的那个感觉,蓝天、海岸、沙滩、背光、单手持相机、黑色T恤,也有对着镜头说话。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力,最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述,它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年,AI视频大模型就像山姆·奥特曼说的那样,今天是Video的GPT-1时刻,可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo,目前我们做到了这样的水平。

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃,想怎么晃就怎么晃,这样是对镜头有真实控制的。未来AI视频大模型,首先应该做到这一点,同样的描述,换一下角度、换一个镜头,它的形象是不应该改变的,它就是同样一个物体。

更进一步讲,未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛,我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型,人来控制镜头,决定想要看哪,相当于在体育场里可以瞬间移动,移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的,当然当然Video Ocean现在做了一些尝试,初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型,最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费,比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话,一个关键点是角色一致性。

比如一个产品的广告,肯定从头到尾这个视频中的衣服、鞋、车,样貌不能有太大变化,物体角色保持一致性。

拍一部电影,从开头到结尾,主演的样貌、关键配角的样貌肯定也不能变化,在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的,道具成本也很高。

未来3年之内,如果AI视频大模型正常发展,我感觉会有一种需求,比如一个导演可以让一个演员在游泳池里拍一段戏,然后拿到素材通过AI将它转成泰坦尼克场景下的游泳,转成阿凡达场景下的游泳,这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制,能够极大降低真实场景复现的难度。

可能之前大家听过一个段子,好莱坞导演想制造一个爆炸镜头,他算了一下预算,第一种方案是盖一个城堡把它炸掉,第二个方案是用计算机模拟这个画面。成本算下来之后,发现这两种方案的成本都很高,当时用计算机模拟的成本更高,现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后,我们可以不受场地、天气等外部因素的限制,并减少对真实演员的依赖。这倒不是抢演员的饭碗,因为一些关键镜头是非常危险的,比如演员跳飞机、跳楼,演员去解救即将引爆的炸弹之类,这种镜头未来只需要演员的身份和肖像权,AI可以把这样的镜头做好,所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的,虽然我们的计算资源有限,但是我们发现通过更好的算法优化确实能够训出更好的效果,比如Meta使用6000多个GPU训练30B的模型,最近我们会在一个月内发一个10B版的模型,我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora开源产品,这个开源产品是完全免费的,在Github上,效果非常不错,比如美国独角兽Lambda labs做了一个火爆的应用数字乐高,其实这个数字乐高就是基于Open-Sora做的。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

今年年初Sora出来之后,各种短视频巨头都对视频大模型这一块比较重视,比如中国的快手、抖音,美国就是Instagram、TikTok、SnapChat,这可以看到SnapChat的视频模型也在早些时候发布了,叫Snap Video,这是它的官方论文,他们就引用了我们训练视频大模型的技术,所以说这些技术也帮助一些巨头真正把视频大模型训得更快,精度更高,智能程度更高。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

谢谢大家!

点击https://video.luchentech.com可体验Video Ocean更多详细能力

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...