创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

932次阅读
没有评论

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

2024 年开端,Sora 引发的关注不亚于 2023 年 GPT-4 的发布。

虽然目前还未开放测试,但根据官方的技术报告以及 Sora 生成的部分视频,行业人士仍能一窥 Sora 的技术路径。

Founder Park 旗下的全球化闭门社区 Global Ready,在 2 月份的闭门分享里,邀请到了 150 余位国内外科技公司创始人与科研学者,从技术和产品的角度,深度探讨了 Sora、Gemini 1.5 Pro 代表的技术新方向,以及 2024 年 AI 创业公司的新机会等。

圆桌嘉宾:

张鹏:极客公园创始人&总裁Demi Guo:Pika Labs Co-founder & CEO胡渊鸣:Meshy.ai Co-Founder & CEO

杨植麟:Moonshot AI Founder & CEO

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

文章内容节选自闭门讨论内容,由 Founder Park 进行整理。

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

01

Sora 可复刻吗?已知 DiT 的信息是否足够?视频生成的技术路径会收敛吗?

观点一

跟一些一线搞过 video diffusion 的同学聊过,我们总结下来,首先是它参数量大了 10 倍,这可以部分地解释它效果为什么这么好。

但如果只是 10 倍,可能也很难解释它为什么有这么大的改变,所以可能还有另外一个 10 倍。这个 10 倍我感觉还是它的数据方面,或者工程实践方面有一些其他人不知道的 know-how。其实 Sam Altman 也经常在一些场合提到,为什么他们的 GPT 就会比其他人的 large model 要好,因为他们堆了 1 million tricks。当你把 1 million tricks 都叠加在一起的时候,它可能会让你的东西有一个本质的提升。

观点二

取决于技术空间,我们觉得技术空间挺大的,差距可能会持续存在,这(复刻)应该是个大概率的事件。

一个模型的效果取决于两个因素。一个是你的算力;第二个是算力的乘数,也就是 compute 的 multiplier。然后最终的效果差距都是这两个东西乘起来差多少。

当然 compute 相对来说是一个门槛更低的东西。因为世界上有很多公司有非常多的 compute,但是没有做出来非常领先的模型。这里面的核心差异点还是在 compute 的 multiplier,里面有巨大的创新空间。

比如说数据,可能已经不像原来那样只要去找一个对的数据就可以了,这里面有一些非常复杂的处理方式。而且他们之间可能有数量级上的差距,这些数量级上的差距很大程度上可能会比 compute 的倍数还更大。因为 compute 还是有一定的上限的,比如说你堆了 5 万张 H 卡,你可能继续 scale compute 还需要 1、2 年的时间,所以你的 compute multiplier 反而可能 scale 得更快。

还有就是模型的 architecture,虽然大家都是 Transformer,但是不同的 Transfomer 也会有区别。比如说你用一个 naive 的 Transformer 去做 long context,可能就不是那么好,甚至可能做不了。但是如果你没有 long context,你的 multiplier 又会降低。所以这里整体的空间还是很大。

包括像现在有 GPT,有 Sora,但可能还没有 max out 它的价值。因为它是两个单独的脑子,或者说 Sora 的脑子还不够好,所以它需要一个更好的脑子。这里面可能又会有一些新的技术空间出来。

所以我觉得核心还是在于 multiplier。

观点三

关于 DiT,至少目前看起来 OpenAI 是这样做,但是不是 DiT 就是最终的架构,很可能大概率不是。因为它不是 AGI,还是缺少 generality,我觉得它还是一个中间的过渡态。

最终需要的一个通用架构,是你硬盘上的所有数据都能被这个模型进行压缩,你的 AI 上限可能就是所有的能被数字化的东西上限,我觉得今天这个架构还做不到这一点。

它只是证明了,在单纯视频这个模态上用这种架构它可能是 scalable 的,但是它还不够通用,我觉得这个倒没有完全收敛。

观点四

我觉得在今年收敛到能开始商用的视频模型,还是比较大概率的。

但是说能够做到「物理引擎」,预测出两个人撞上要摔跤了,更加复杂的物理引擎预测事件,今年可能不一定。

其实你说,一个电影里面有多少片段是超过 10 秒的,其实很少。很有可能今年不用做到那个程度,已经可以有一些商用价值。


02

Sora 能够成为「物理模拟器」吗?它是否真的理解物理世界?

观点一

从我的角度看,Sora 完全不是一个好的物理模拟器。因为它现在的模拟能力,与我们十年前使用有限元和有限差分/有限体积做流体的和刚体模拟相比,相差甚远。

如果是一个物理模拟器,那它就能发挥物理模拟器的价值。以前进行物理仿真,如缸体仿真和流体仿真,都具有显著的预测价值。例如,设计一辆汽车时,我们可以预测其在撞击墙壁时的反弹效果和形变情况。同样,发射一颗导弹时,通过了解每时每刻的空气动力学特性、初始速度和控制系统,我们能够预测它是否能够准确击中目标。这些仿真都展现了强大的预测能力。

目前看来,像 Sora 这样的 AI 系统确实能对物理世界有一定的理解,但它无法发挥实际的物理模拟器作用。所以,我认为它可以被模糊地称为物理模拟器,但更多是一种营销包装手段,可能与 Sam Altman 追求 AGI 的目标更吻合。但如果说到实用的物理模拟价值,我认为是没有的。

举个例子,一个西瓜,用一刀把它切开,西瓜就会变成两半。要通过物理仿真进行这种切割模拟出来需要的解析精度非常高,因为这属于切割仿真。但如果你让 Sora 预测一把刀切向西瓜时会发生什么,Sora 可能很容易就能生成西瓜被切成两半的结果。使用这种黑箱方法,有时候甚至可以获得比传统物理仿真更准确、更有价值的结果。所以,从这个角度看,它或许可以被视为一种全新的、黑箱式的物理模拟器。

如果考虑 AI 未来可能解决一些传统物理模拟器无法解决的问题,尽管我们可能无法完全解释工作原理,这仍然表明它具有一定的价值。但具体应用场景在哪里,可能还需要一些时间来探索。

观点二

对于视频生成,理论上它能模拟物理现象,因为如果视频生成要做到真实,尤其是在视频较长的情况下,它必须要理解物理原理才能显得真实。从这个角度看,虽然现有模型效果不错,但根据我们的了解和看的一些视频,它对物理的理解还是有限的。它能进行一些基本的物理理解,比如一个球掉在地上会反弹,但 Sora 这样的模型可能还不足以进行复杂的物理预测,例如预测一个杯子的具体行为就显得力不从心。

如果是长视频的情况,它可能无法准确预测更复杂的情况,比如两个即将碰撞的人可能会互相穿过而不是真的碰撞并摔倒。尽管理论上它能进行物理预测和模拟,但当模型本身足够强大,随着时间推进和技术进步,它的预测准确率和能力可能会逐渐增强,从而越来越接近真正的物理引擎预测。

观点三

我的想法是,物理模拟或对物理世界规律的理解,实际上可能是视频模型的一个子集。

以语言模型为例,它分为两种模式。一种是事实模式。在这种模式下,你期望模型能描绘世界知识而不产生幻觉,确保提供的信息是事实上准确的,具有真实性和可信度。另一种模式是你可能想要它构造一个虚构世界,比如编写一个故事或一本小说。这时,幻觉作为一种特征实际上是可接受的「本质上并没有问题」。

视频模型也是一样的,有些非常贴近客观世界,比如苹果掉落或水流向低处这样的自然物理现象,包括切西瓜等,这些视频反映了真实世界。还有一种可能是虚构的,比如电影特效或完全奇幻的电影情节,很多视频是人为生成的,可以加入很多编辑元素。因此,视频模型可能有两种模式。当模型的规模 scaling 到一定程度后,这两种模式可以随时切换,就像现在的语言模型一样,它可以根据用户的需求/prompt/use case 来切换不同的模式。

所以我认为从模型的角度看,它的 scope 甚至可能超过物理模拟本身,其中物理模拟是强调真实性的一部分。我也赞同之前的观点:在当前状态下,Sora 可能还不是对物理世界非常精准的模拟器。但我相信 scaling law——你只要足够的 scale,这个问题应该是能够被解决的。


03

如果你是 Sam Altman,你会把 Sora 产品化吗?

观点一

第一,这个模型离商用非常近,只要解决 inference efficiency,一般来讲就不会非常难。

第二是要不要做产品。因为 Sora 只是 OpenAI 一个 team 做的,大部分 team 还是 LLM team,外界看来他们把这个包装成 AGI World,但其实内部肯定也不是计划好的,只是这个 team 出成果了。他们有一个产品策略,叫 1P 和 3P 策略。就是他们只做跟模型最相关的产品,不做更加 vertical 的产品。像 ChatGPT,他们把这个语言模型包装一样,可能花几个 engineer 的事,可能加一个比较 shallow layer 的事,做一下。但你说做个搜索引擎,可能就不做了,要做出 legal tag,可能就不做了,这叫 3P 产品,让第三方去做。

我觉得视频也是一样,会有类似 DALL・E 3 这样一个简单的包装,能够让大家使用,但不会去做非常垂直的,非常 specific 的产品化尝试。

能不能做产品和 OpenAI 选不选择做产品是两件事情。对他们来讲,这些东西更多是为了达到 AGI 上的 milestone。

观点二

技术的演进会非常快,至少两三年内是不会收敛的,在这种情况下做太多产品上的雕花可能会面临被颠覆的风险,接下来更加成立的很多产品可能还是会在模型能力的演进过程中,做比较轻度的产品化,可能更多是 models as an application 这种产品化,直接用模型定义了产品,本身需要的 effort 没有那么多。

这同时还有一个作用,开发 AGI 的过程需要跟很多用户一起去共创,让用户真的去用你的产品,在这里面找到很多问题和反馈,可能会对模型怎么演进和优化,能提供非常多的输入。同时趁这个机会先把 community 建起来,比如 GPT-3.5 level 的产品现在在世界上它的用户量仍然是最大的,先发优势也会充分地去利用。

这里面我觉得有一个核心的考量,是产品可能会发生巨大的变化。基于今天的模型能力做的产品,可能也许到明后年就不一定成立,或者完全可能被推翻。如果你是一个更长期的 investment,要去提升通用能力。


04

Sora 出来后,创业公司接下来有什么新机会?

观点一

从 3D 角度讲一讲,如果是考虑 3D 生成,硬要先生成一个视频,再拿视频做 3D reconstruction,那我认为其实是走弯路了。

但 Sora 依然对 3D 生成有很大的启发。它搞了一个「Patch」这样一个抽象,把各种 modality 的东西都塞进去,图片、视频都喂进去,这对做 3D 也很有帮助。

3D 现在比较大的一个问题还是数据很少,我估算,世界上能够找到的、说得过去的 3D 模型,可能也就一亿个(类似量级),它和图像、视频都差了至少一两个数量级的规模。

现在大家生成高质量 3D 主流的做法,还是用大量的 3D images,去做一种类似于 3D reconstruction 的方法。也有方法是直接在 3D space 里做的,但效果相对来说,可能跟用户想要的会有一些距离。

其实现在很多 3D 生成的技术,其中很多 idea 是来自 video generation,3D 的 consistency 和 video 的 consistency 很多地方是一致的。所以做随机生成的公司,看到 Sora 这样的效果都会思考,一方面,自己怎么跑得更快一些,不要某天被 OpenAI 一步抢先拉开差距。现在 OpenAI 可能看不上这个事情,如果未来某天它看上这件事,不要被它一下拉开特别大的差距。你可以早点看到它用的一些技术,能否借鉴。

另一方面,其实它还可以给 3D 生成带来更多的信心,因为以前大家觉得 3D 做到一定程度就会卡住,但如果现在 video 能做到这么好的话,那么大家可能会再去在自己的方向上展望一下未来——更有信心。

观点二

从应用的角度,目前确定性比较高的,就是直接作为一个生产力工具,已有的视频生产的环节肯定会被颠覆。

它可能会先从 prompt to a video clip 开始,慢慢地逐渐期待 Adobe 的全套产品和上面的 100 万个按钮。我觉得这个可能是一个大概率的事情,今天的技术我认为做到这也就差不多。

但是如果我们再看接下来一两年的发展,如果它有更强的大脑,这里的空间还会更大。在生产力工具之外,可能会有新的品类。比如说,以前从来没有出现过的产品形态,跟游戏直播都不一样的东西。我觉得这些是可以预期的,因为在现在的基础上可能会有非常大的变量,使得原来完全不可能的产品形态变得可能。

观点三

对视频生成领域来讲,Sora 的诞生还是很 exciting,Sora 的出现让很多人感觉距离更进一步。

第一天,我还觉得,哇,生成的效果的确挺好的,但是在逐渐了解的过程中,我们也知道了,这件事对我们来讲也不一定是非常难的事情,它给我们指引了一个方向。

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

在此之外,本次的闭门分享还讨论了更多问题:

  • Sora 是世界模型吗?
  • 「理解物理」是「直觉」还是「科学」?
  • Scaling Law 继续发挥作用的话会怎样?
  • 为什么 Google 做不出 Sora?
  • Sora 对当下大模型创业有怎样的启发?
  • 端侧模型有怎样的想象空间?

……

全部内容仅对社区会员解锁,欢迎加入 Global Ready 社区获取。

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

更多阅读

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

Scaling 能通往 AGI 吗?万字科普 Scaling Law 的业内争议与讨论

Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界

如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现

比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy