OpenAI Sora 团队专访：技术细节、后续功能开发排期全解密！

1,431次阅读

没有评论

。 OpenAI Sora 团队专访：技术细节、后续功能开发排期全解密！

3 月 8 日，OpenAI 的 Sora 团队接受了油管知名博主 Marques Brownlee (简称 MKBHD) 的采访，透露了很多之前从未公开的信息，比如正式上线时间、什么时候加入音频生成以及详细的技术路线等。

文章转载自「赛博禅心」，Founder Park 略有增删。

OpenAI Sora 团队专访：技术细节、后续功能开发排期全解密！

01

Sora 的原理和技术缺陷

MKBHD：能邀请各位百忙之中抽空来参加这次对话，真是十分荣幸～在对话开始之前，要不先做个自我介绍？比如怎么称呼，负责哪些事情？

Bill Peebles：Bill Peedles，在 OpenAI 负责 Sora 项目。

Tim Brooks：Tim Brooks，负责 Sora 项目的研究。

Aditya Ramesh：Aditya，一样的，也是负责人。

MKBHD：我对 Sora 了解一些，主要还是看了你们发布的那些宣传资料、网站, 还有一些演示视频，真挺牛的。能简单说说 Sora 究竟是咋实现的吗？我们之前有讨论过 DALL-E 和 Diffusion，但说实话，我对 Sora 的原理确实摸不透。

Bill Peebles：简单来说，Sora 是个生成模型。最近几年，出现了很多很酷的生成模型，从 GPT 系列的语言模型到 DALL-E 这样的图像生成模型。

Sora 是专门生成视频的模型。它通过分析海量视频数据，掌握了生成各种现实和虚拟场景的视频内容的能力。

具体来说，它借鉴了 DALL-E 那样基于扩散模型的思路，同时也用到了 GPT 系列语言模型的架构。可以说，Sora 在训练方式上和 DALL-E 比较相似，但架构更接近 GPT 系列。

MKBHD：听起来，Sora 像其他大语言模型一样，是基于训练数据来创造内容等。那么，Sora 的训练数据是什么呢？

Tim Brooks：这个不方便说太细😊 但大体上，包括公开数据及 OpenAI 的被授权数据。

不过有个事儿值得分享：以前，不论图像还是视频模型，大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频，来训练 Sora。

至于做法，我们把各种各样的图片和视频，不管是宽屏的、长条的、小片的、高清的还是低清的，我们都把它们分割成了一小块一小块的。

接着，我们可以根据输入视频的大小，训练模型认识不同数量的小块。

通过这种方式，我们的模型就能够更加灵活地学习各种数据，同时也能生成不同分辨率和尺寸的内容。

MKBHD：你们已经开始使用、构建和发展它一段时间了，可否解答我一个疑惑？我本身是做视频的，能想到这里要处理的东西有很多，比如光线啊、反光啊，还有各种物理动作和移动的物体等等。

所以我就有个问题：就目前而言，你觉得 Sora 擅长做什么？哪些方面还有所欠缺？比如我看到有个视频里一只手竟然长了六个手指。

Tim Brooks：Sora 特别擅长于写实类的视频，并且可以很长，1 分钟那么长，遥遥领先。

但在一些方面它仍然存在不足。正如你所提到的，Sora 还不能很好的处理手部细节，物理效果的呈现也有所欠缺。比如，在之前发布的一个 3D 打印机视频中，其表现并不理想。特定场景下，比如随时间变化的摄像机轨迹，它也可能处理不佳。因此，对于一些物理现象和随时间发生的运动或轨迹，Sora 还有待改进。

MKBHD：看到 Sora 在一些特定方面做得这么好，实在是挺有趣的。

像你提到的，有的视频在光影、反射，乃至特写和纹理处理上都非常细腻。这让我想到 DALL-E，因为你同样可以让 Sora 模仿 35mm 胶片拍摄的风格，或者是背景虚化的单反相机效果。

但是，目前这些视频还缺少了声音。我就在想，为 AI 生成的视频加上 AI 生成的声音，这个过程是不是特别有挑战性？是不是比我原先想象的要复杂很多？你们认为要实现这样的功能，我们还需要多久呢？

Bill Peebles：这种事情很难具体说需要多久，并非技术难度，而是优先级排期。

我们现在的当务之急是要先把视频生成模型搞得更强一些。毕竟，以前那些 AI 生成的视频，最长也就四秒，而且画质和帧率都不太行。所以，我们目前的主要精力都在提升这块。

当然了，我们也觉得视频如果能加上声音，那效果肯定是更棒的。但现在，Sora 主要还是专注于视频生成。

02

Sora 暂时未定发布时间，生成视频会加入水印

MKBHD：你们在 Sora 身上做了大量工作，它的进步有目共睹。我很好奇，你们是怎么判断它已经达到了可以向世界展示的水平的？

就像 DALL-E 一样，它在发布之初就惊艳全场，这一定是一个值得铭记的时刻。另外，在 Sora 已经表现出色的方面，你们是如何决定下一步的改进方向的呢？有什么标准或者参考吗？

Tim Brooks：你可能会注意到，我们目前并没有正式的发布 Sora，而是通过比如博客、Twitter、Tiktok 等渠道发布一些视频。这里的主要原因是，我们希望在真正准备好之前，更多的获得一些来自用户的反馈，了解这项技术如何能为人们带来价值，同时也需要了解在安全方面还有哪些工作要做，这将为我们未来的研究指明方向。

现在的 Sora 还不成熟，也还没有整合到 ChatGPT() 或其他任何平台中。我们会基于收集到的意见进行不断改进，但具体内容还有待探讨。

我们希望通过公开展示来获取更多反馈，比如从安全专家那里听取安全意见，从艺术家那里了解创作思路等等，这将是我们未来工作的重点。

MKBHD：有哪些反馈，分享一下？

Tim Brooks：有一个：用户希望对生成的视频有更精细、直接的控制，并非只有简单的提示词。

这个挺有趣的，也这无疑是我们未来要重点考虑的一个方向。

MKBHD：确实，有些用户可能只是想确保视频是宽屏或竖屏，或者光线充足之类的，而不想花太多精力去设计复杂的提示词。这个想法很有意思。

下一个话题，未来 Sora 是否有可能生成出与真实视频毫无二致的作品呢？我猜是可以的。就像 DALL-E 那样，随着时间发展，越来越强。

Aditya Ramesh：我也相信，因此我们会变得变得更为谨慎。

人们应该知道他所看到的视频，是真实的，还是 AI 生成的。我们希望 AI 的能力不会被用到造谣上。

MKBHD：在 Sora 生成的视频中，在右下角都有水印，这确实很明显。但是，像这样的水印可以被裁剪掉。

我很好奇，有没有其他方法可以识别 AI 生成的视频？

Aditya Ramesh：对于 DALL·E 3，我们训练了一种溯源分类器，可以识别图像是否由模型生成。

我们也在尝试将此应用于视频，虽然不完美，但这是第一步。

MKBHD：懂了。就像是加上一些元数据或者某种嵌入的标志，这样如果你操作那个文件，你就知道它是 AI 生成的。

Aditya Ramesh：C2PA 就是这样做的，但我们训练的分类器可以直接应用于任何图像或视频，它会告诉你这个媒体是否是由我们的某个模型生成的。

MKBHD：明白了。我还想知道你的个人感受。显然，你们必须等到觉得 Sora 准备好了，可以向世界展示它的能力。看到其他人对 Sora 的反应，你有什么感觉呢？

有很多人说「太酷了，太神奇了」，但也有人担心「哦不，我的工作岌岌可危」。你是怎么看待人们各种各样的反应的？

Aditya Ramesh：我能感受到人们对未来的焦虑。作为使命，我们会以安全负责的方式推出这项技术，全面考虑可能带来的各种影响。

但与此同时，我也看到了许多机遇：现在如果有人想拍一部电影，由于预算高昂，要获得资金支持可能非常困难-制片公司需要仔细权衡投资风险。而这里，AI 就可以大幅降低从创意到成片的成本，创造不同。

MKBHD：Sora 和 DALL·E 确实有很多相似之处，尤其是在使用场景上。

我自己就经常用 DALL·E 来设计各种概念图，帮助很大。我相信对于 Sora 来说, 类似的创意应用场景也会有无限可能。

我知道，Sora 现在还没具体的开放时间，但你觉会很快吗？

Aditya Ramesh：我觉得不会那么快，我觉得😊

03

Sora 的目标是模拟自然，再超越自然

MKBHD：最后一个问题是：在将来，当 Sora 能制作出带声音的、极度逼真的、5 分钟的 YouTube 视频的时候，会出现哪些新的、要应对的问题？

更进一步说，相较于图片，视频制作的复杂的要高得多。但视频则涉及到时间、物理等多个维度，还有反射、声音等诸多新的难题。

说实话，你们进入视频生成领域的速度远超我的预期。那么在 AI 生成媒体这个大方向上，下一步会是什么呢？

Tim Brooks：我期待看到人们用 AI 来创造全新的东西。

去复刻已有对东西，不算难事儿；但使用新工具，去创造未曾出现的东西，着实令人心动！

对我来说，一直激励我的，正是让那些真正有创意的人，将一切不可能的事情变成可能，不断推进创造力的边界，这太令人兴奋了！

MKBHD：确实有趣啊！

我觉得，由于它们是基于已有内容训练的，因此生成的东西也只能建立在现有内容之上。要让它们发挥创造力，唯一的办法可能就是通过你给它的 prompt 了。

你需要在如何巧妙地提出要求上下功夫, 琢磨该如何引导它。这么理解对吗?

Bill Peebles：除了 prompt，Sora 还可以通过其他方式引导视频生成。

比如在我们之前发布的报告里，演示了如何将两个的混合输入：左边视频一开始是无人机飞过斗兽场，然后逐渐过渡到右边 – 蝴蝶在水下游动。中间有一个镜头，斗兽场渐渐毁坏，然后被看起来像被珊瑚覆盖，沉入水中。

像这一类的视频生成，无论是技术还是体验，都是完全与以往不同的。

Aditya Ramesh：从某种意义上来说，我们做的事情，就是先模拟自然，再超越自然！

MKBHD：哇，这确实挺酷的，很有意思啊！

Sora 能够越精准地模拟现实，我们就能在它的基础上越快地进行创新和创作。理想情况下，它甚至能成为一种工具，开辟新的创意可能性，激发更多的创造性思维。

真的超级赞！

如果有什么话想对大家说，现在正是个好时机。毕竟，你们是最早开始这个项目的人，比任何人都更早地看到了它的潜力。关于 Sora 和OpenAI，还有什么是你们想让大家知道的吗？

Tim Brooks：我们还特别兴奋的一点是，AI 通过从视频数据中学习，将不仅仅在视频创作方面发挥作用。毕竟，我们生活在一个充满视觉信息的世界，很多关于这个世界的信息是无法仅通过文本来传达的。

虽然像 GPT 这样的模型已经非常聪明，对世界有着深刻的理解，但如果它们无法像我们一样「看到」这个世界，那么它们就会缺失一些信息。

因此，我们对 Sora 及未来可能在 Sora 基础上开发的其他 AI 模型充满期待。通过学习世界的视觉信息，它们将能更好地理解我们所生活的世界，因为有了更深刻的理解，未来它们能够更好地帮助我们。

MKBHD：确实非常酷！我猜背后肯定有大量的计算工作和一群技术大神！

说实话，我一直盼着某天能用上 Sora，有进度来请立即敲我～

Bill Peebles：没问题

MKBHD：谢啦

OpenAI Team：感谢

1000 thousand years later…

MKBHD：对了，我还忘了问他们一个挺有意思的问题。虽然录的时候没问到，但大家都想知道，用一个提示让 Sora 生成一个视频需要多长时间？

我私信问了他们，答案是：得看具体情况，但你可以去买杯咖啡回来，它可能还在忙着生成视频。

所以，答案是「需要挺长一段时间」。

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。
OpenAI Sora 团队专访：技术细节、后续功能开发排期全解密！
更多阅读

2024 年，中国的投资人们如何投 AI？

兼职创业，一个人如何在半年内把 AI+Excel 的项目做到 31 万美金 ARR？

Notion CEO：RAG是知识管理的未来，AI将SaaS带入新一轮Bundling

AI 应用之路：质疑汤姆猫，成为汤姆猫，超越汤姆猫

世界最强大模型易主！Anthropic发布Claude 3系列模型，幻觉问题更少了

转载原创文章请添加微信：geekparker

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

OpenAI Sora 团队专访：技术细节、后续功能开发排期全解密！

Sora 的原理和技术缺陷

Sora 暂时未定发布时间，生成视频会加入水印

Sora 的目标是模拟自然，再超越自然

test

test

文心AIGC

test

test