《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。
关于Sora——这是一个备受关注的话题。众所周知,Sora是由OpenAI推出的一个先进的内容生成大模型,它的主要功能是生成视频,同时也支持一些图像相关的下游任务。
Sora与市面上其他视频生成产品相比具有三个显著的特性。
1、它能够生成长达60秒的视频,这在视频生成领域堪称超长。
2、Sora的视频呈现了多角度的镜头变换,增加了视频的丰富性和观赏性。
3、Sora引入了所谓的“世界模型”,这一特点在业界引发了广泛的讨论。让我们逐一对这些特点进行详细解读。
让我们先聚焦于60秒这一时长。那么60秒在视频生成中算是超长吗?为了给大家一个清晰的概念,我们不妨与其他产品和模型作一番对比。比如谷歌在今年1月发布的Lumiere模型,根据他们的研究论文,该模型能够生成5秒钟且帧数达80的视频。
当我们调研市场上现有的一些视频生成产品时,我们发现Gen-2经过技术更新后,可以生成长达18秒的视频。而另一个名为Pika的产品,能生成的视频时长仅为3秒。包括刚才提到的Lumiere,其生成视频的时长也是5秒。通过这样的比较,我们可以清楚地看出,60秒在视频生成领域的确是一个非常显著的超长时间跨度。
接下来,让我们探讨Sora的第二个特点——多角度镜头视频。这里,我们以两个视频为例进行比较分析。左侧展示的两个视频分别是由Gen-2和Lumiere生成模型制作而成。如大家所见,这些视频确实呈现出了一定程度的镜头位移,然而可能由于视频时长的限制,它们并没有实现我们所说的镜头分解——即一个场景中不同角度镜头的切换。
相比之下,观察右侧由Sora生成的机器人视频,我们明显可以看到多次的镜头切换,这不仅给观众带来了更为丰富和动态的视觉体验,更难能可贵的是,尽管镜头在不断变换中,视频中的机器人角色却能够保持内容上的连贯性和一致性。这一点充分展现了Sora在视频生成技术上的先进性和创新性。
关于Sora的第三个特点,它被称为世界模型,有时也称之为世界模拟器。首先,我们需要明确地理解什么是世界模型。在我的看法,一个世界模型应当能够真实并客观地呈现物体间的相互作用,甚至能够反映出某些物理规律。因此,这样的模型可以视作我们真实世界的数码映射,即所谓的世界模型。
通过观察我们前面展示的这两个视频,可以发现Sora生成的视频正开始展现出这些特性。左侧视频中,画笔接触纸张时能够生成绘画痕迹;而右侧视频展示了当嘴唇咬向汉堡时,汉堡上留下了牙印。这些例子显示Sora能够模拟物体间的交互行为,乃至于呈现出一些符合物理定律的现象。正是这些能力,是 Sora被称为世界模型,或者大家常说的世界模拟器的基础。
上述内容来自于《追AI的人》第36期直播,更多精彩分享,阅读本次推送首篇文章❤️
❤️妇女节福利
在三八妇女节来临之际,AAIG将送出贴心好礼,发送关键词“妇女节快乐”到本公众号即可参与抽奖!
📌往期推荐
📖2023生成式人工智能治理系列丛书生成式人工智能的发展以及担忧|生成式人工智能的治理愿景和框架...👉点击查收全文链接
🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播解读AI背景下的数字水印!|当”巨兽”成为”宠物”!|如何避免ChatGPT被滥用…👉点击查收过往36期直播的全部文字回放
🎈《算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异|“大数据杀熟” 的背后…👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | AI生成图与电影画面傻傻分不清?| 信息茧房和马太效应是什么…👉点击观看往期25期精彩视频
👇AAIG课代表,获取最新动态就找她
关注公众号发现更多干货❤️
有启发点在看喔👇