这位清华教授,是大模型创业的“非共识”者

589次阅读
没有评论

这位清华教授,是大模型创业的“非共识”者

无论是做学术,还是做企业,“不一样”往往代表着“有价值”。

|《中国企业家》记者 孔月昕编辑马吉英头图摄影|邓攀

一年前,周伯文是大模型创业领域“绝对的非共识者”。

当时ChatGPT的问世引发国内狂热的“百模大战”,有不少投资人主动找到衔远科技创始人周伯文,表示愿意出更多钱投资他做通用大模型,但他还是坚持在自己原来的方向,即聚焦生成式AI的产业应用落地和以此倒逼的大模型技术迭代。

2021年底,周伯文为了创业从京东离开,在北京成立了衔远科技。2023年初,衔远科技宣布完成了数亿元人民币的天使轮融资,投资方为启明创投和经纬创投。

周伯文曾在美国IBM总部担任人工智能基础研究院院长、Watson集团首席科学家,回国后曾在京东担任集团高级副总裁、集团技术委员会主席、京东云和AI业务线总裁。除了创业者身份,他现在还是清华大学惠妍讲席教授、电子工程系长聘教授。

在他眼中,无论是做学术,还是做企业,“不一样”就代表着“有价值”。

近期,周伯文正在筹备衔远科技Pre-A轮融资,为公司以及业务扩大规模做准备。

他表示,自己并不追求高估值,当下依然是AI创业公司小步快跑的阶段。“大模型赛道是一个长坡厚雪、需要下慢功夫的赛道,我们既不是比马拉松起步阶段谁跑得快,也不是比谁跑得久,而是要真正在这个方向上实现到达。”

以下为周伯文接受《中国企业家》专访的内容整理,有删节。

这位清华教授,是大模型创业的“非共识”者

先易后难,还是先难后易?

在2023年初,我在大模型创业领域是一个绝对的非共识者。

当时有很多投资人劝说我应该去做一个Foundation Model,因为从我的能力背景来看,跟这件事更为匹配。但我依然坚持初心。这位清华教授,是大模型创业的“非共识”者

周伯文。摄影:邓攀

把一是基于技术逻辑的长期思考,我觉得纯粹做Foundation Model,对创业者、投资人而言是一件“先易后难”的事情,越到后面,难度会指数级提升。

OpenAIGoogle等公司的大模型的进展,或者说OpenAI的路径可以看到,一旦(创业公司)在它的延长线上做事情,可能一夜之间会被颠覆掉,比如GPT Store发布后很多相关公司就融不到资了;但在后面追赶OpenAI也很难,因为用OpenAI的方式去击败OpenAI几乎无法想象。正如目前还没有另一家GPU公司,可以用英伟达的方式去超越英伟达。

大部分创业公司乃至大厂,都无法很好地回答这些问题:如我们能否比OpenAI更好地预测下一个技术方向?如何判断OpenAI做的一件事情,我们必须要做到,还是可以跳过?想达到GPT-4的能力,是直接跳过dense model(稠密模型,训练阶段所有参数都需要被更新)去做MoE(混合专家模型),还是必须先要复现它……

2023年虽然看起来轰轰烈烈,但大家都在追赶OpenAI在2022年的认知。换句话讲,创业公司或大厂慢慢可以达到GPT-3到3.5的能力,因为GPT-3.5之前的数据信息比较开放,但这之后,OpenAI的很多信息是不再开放的,对很多公司来说追赶超越就很难。

第二在商业逻辑上,纯粹的大模型不一定会有商业模式。从投资人角度来讲,要从中看到商业价值很难,但它(的机会)又足够大,比互联网、智能手机还大,所以不能miss。这对投资人和创业者而言都很痛苦。

一个技术最终要发挥价值,还是要看它能解决什么问题。这意味着有两种方式,第一是完全等技术成熟再去思考技术用在哪,但这样的话会miss掉很多原创的机会。第二需要提前想清楚哪种场景下它一定会有价值,用场景去倒逼技术的升级迭代。

这跟互联网时代的创业逻辑完全不同。移动互联网时代,创业是基于技术确定性的东西,边界很清楚,比如无论是外卖还是打车,技术都是基于LBS(基于位置的服务),核心就是把运营跑起来,小步快跑来快速迭代,再去看数据漏斗,如日活、月活、转化等,来提升产品体验。

但在大模型时代,技术底座是动态的,边界不确定,它能不能形成数据飞轮?大模型的边界在哪里?未来大模型的商业化需要突出哪些技术长板,哪些技术指标可以先妥协?都没有共同的认知。

因此,我认为每一代创业者都有不同的特性,起码在这个阶段,这代大模型创业者如果离开对技术的深刻理解和未来技术趋势的判断,是很难在大模型时代这个阶段创业成功的。其次,创业者光懂技术,不懂商业模式也很难闭环。

所以AI时代对于创业者的要求,比互联网时代难很多,因为需要预判技术的边界在哪里,并在不确定下找到产品迭代的方向。很多人现在拒绝或找各种方式在延迟回答这个问题,但我认为如果有认知的预判,以此能先做好准备从而形成场景的闭环,再以闭环场景的数据飞轮形成先发优势,是一种更躬身入局的做法。

相比“先易后难”,我更想反向选择一条“先难后易”的道路。原因在于,从商业模式上来讲,用生成式AI完成整个链条上人—货—场所有维度的重构,这种重构一定是颠覆式的。前段时间马云在拼多多市值超过阿里的当晚,在内网提到AI电商时代才刚刚开始。我不确定马云说的AI电商时代跟我想的是否相同,但我从2021年就意识到生成式AI会重构人跟货的关系,其中存在着巨大的几乎是无限天花板的商业价值。

其次,我认为随着技术的发展,人—货—场的重构有可能倒逼大模型技术商业化的三大挑战。一是专业度的问题,大模型目前依然存在“幻觉”,也就是一本正经地胡说八道,而且这很可能是一个长期的特点(feature)而不一定是一个bug。除了一些特定场景比如要求想象力大于专业性,模型对世界的认知的准确度是非常重要的。很多落地要求它的专业性必须高于90%的人才会有价值。在垂直领域率先落地大模型,就是让具备通用能力的大模型及早穿越90%巨大障碍的机会。

二是推理成本的问题,和我本人2013~2015年间在美国深入做AI技术产业化的战略思考后的结论很类似,大模型未来的商业模式可能也是两种形态的选择与平衡:一个是高通量(high volume模式,另一个是高价值(high value)模式。前者的成功商业化要求推理成本要远远小于所获价值,在2024年还会是一个持续挑战,因此我认为高价值比高通量在当前更有可能商业化成功。这位清华教授,是大模型创业的“非共识”者

来源:视觉中国

2023年初,当时很多人猜测在ChatGPT帮助下,New Bing市场占有率会很快超过Google,一度有人预测GPT首先会颠覆搜索引擎,但很快被证明失败了。核心原因就是New Bing的推理成本要比Google高两个数量级。没有人会愿意为“加州的首府在哪里”之类的问题支付1美元,因为大家可以用更低的成本获得这个答案,也很难有adword(广告字)等模式分摊这个成本。但在高价值的场景中,所解决的问题是靠搜索找不到的,或者需要大量专业化、系统的深入工作后才能获得答案时,用户才会愿意付1美元,可以完全覆盖大模型的推理成本。

从理论上看,Transformer架构的不可能三角——高并发的训练成本、更长上下文的表征能力和低推理成本只能三选二——会限制推理成本在短期内快速下降。从实际进展来看,通过多种手段的叠加,现在模型训练的成本在过去18个月降了4~5倍,推理成本降得更多。所以推理成本在确定但相对缓慢的下降过程中,先解锁和部署高价值推理应用,后续也不断持续下降推理成本,这让后面的追随公司更加追不动了。

三是数据飞轮,即经过数据收集、预训练、增量训练、SFT(有监督微调)、强化学习等步骤训练完大模型后,将其上线放到场景里面使用,再反馈回模型层面继续训练,全部链条都构建成功才能形成专业领域的数据飞轮,而这对于很多不和场景深度互动的大模型公司或不掌握模型本身的AIGC应用公司是很难实现的。

衔远科技选择的路径是,先明确高价值场景(AI电商服务平台),再凭借对技术底座和对场景know-how的深刻理解与创新能力,以最高可能的训练性价比,构建独特通用大模型的专业能力,在推理环节对高价值场景问题进行有效处理,让推理的成本远远低于创造的价值,进而在专业化的场景里构建某种意义上的数据飞轮。

之所以说我们是一个先难后易的创业过程,是因为最初我们没有对标。因为过去大家往往习惯说某某公司是“中国的XXX”,以此来和美国的XXX来对标估值和商业路径。开始时没有明确的对标会增加大家的决策难度,但是我们现在把难的问题如技术的演化、价值的创造、商业的闭环都想清楚了,后面就更容易了,也更有定力。所以这是从2021年大家还不知道大模型能做什么之前,我有这个想法启动创业,到现在我们都能一以贯之的原因。

这位清华教授,是大模型创业的“非共识”者

从漏斗到注射器

从技术层面预判生成式AI将重构人—货—场后,衔远科技在商业模式上确定了“大闭环”和“小闭环”的发展路线。

我们从2022年到现在,一直在自研多模态大模型。在通用大模型的基础上,加强它对商品、消费者理解的专业性训练,再搭建AI技术平台,从而让产品拥有深度洞察、产品创新和营销推广的能力,也就是我们命名的“大闭环”。

但坦白说,实现大模型的“大闭环”需要一个长期的过程,衔远科技目前完全跑通了“小闭环”,即从洞察到营销策划,再到营销内容物料的生成,并且也做出了一些成功案例。

在找到商业模式的基础上,比较幸运的是,我们目前处在一个全民关注大模型,且所有企业决策者都在思考大模型能带来什么、自己企业要怎么拥抱大模型的背景下。尤其在中国,永远有一批企业家希望不断迭代自己企业的效率,永不躺平,因此很多人会主动来找我们,希望理解衔远大模型能帮助企业做什么。

所以BD(商务拓展)对我们来讲从来不是一个问题,困难的反而是PMF(产品市场匹配度),即我们如何帮不同背景、层次的企业家理解生成式AI跟公司业务不同环节的关系,他们的切入点是什么,以及他们的预期跟产品达到的能力之间如何找到平衡。

企业家往往极其注重效率和ROI(投入产出比),但他们对大模型又不够了解,在心态上既觉得自己不能错过大模型,想用,但又不愿花在见效不明显的地方。因此创业公司在AI模型或应用的B端商业化上,必须找到企业真正的痛点。

这种情况下,大模型商业化的过程中,行业竞争不是主要问题,相反,大模型企业自己的组织效率、算法迭代的速度以及如何更可持续地匹配前沿技术与场景是更大的挑战。

大部分大模型企业商业化早期和原来的to B技术解决方案企业一样,在找到PMF之前,都是按照“漏斗”模式进行商业化和梳理组织流程。通过漏斗过滤客户,BD去和大量客户聊需求,根据需求出一个方案,再结合自己或开源、供应商大模型进行系统优化与工程实现,如果客户不满意,就要反复沟通重做或放弃这个客户,在这个过程中去沉淀自己的能力和产品化。

这个问题的关键在于,因为大模型技术不断在迭代,好的匹配点很难找到或者固化,大家只能不断去尝试。

衔远在这方面也花了很多时间去理解客户的需求,让我们对客户的需求了解更深刻了,但是因为我们对场景的聚焦和自己具备的行业know-how与资源链接能力,我们很快清晰了PMF的大小闭环方向。在这个方向下,我们的组织协同和商业化模式是“注射器/针筒”模式,也就是我们通过前期的积累,知道客户想要什么后,将我们的研发产品和方案打造成“标品”,即“针筒”,然后结合B端客户的需求,将针筒的方案、产品的研发结合成一个团队,进行完整的打磨;BD则有针对性地跟目标客户的特定部门沟通,如营销、电商、市场等部门。

在价值主张和客户达成一致的背景下,我们的多模态大模型和算法团队是整个价值主张的推动器,不断高频迭代、围绕精准点、价值点去推动“注射器”,从而在快速迭代中做出成效,把业务营养和价值源源不断地输入给客户。

这位清华教授,是大模型创业的“非共识”者

来源:受访者

截至目前,我们在每个单点都已经和客户证明了这个模式的客户价值,接下来我们需要观察整个端到端的效果。回到“针筒”的逻辑,就是我们提供的“药”是有效的,让客户可以看到打完这一针之后的完整效果。有效之后的复制可以是非常高效的,因为它是一个标准的方式,沉淀的大模型能力和产品能力都可以复用。

所以,2024年对我们是至关重要的一年。一旦多个客户验证成立,我们肯定会选择加大投入,做大规模爆发式的增长;即使效果没有想象得那么好,这个框架和已有的PMF沉淀,也会让我们高效调整药剂、方案。

这位清华教授,是大模型创业的“非共识”者

2024年,算力紧缺依然是全球问题

ChatGPT问世一年之后,整个业界的进展是很显著的。

第一,从技术角度来讲,Transformer架构依然可以不断扩大规模,scaling laws(规模法则)也还适用,所以大家还在不断地增加训练数据来推动模型能力边界,并在持续优化这个架构下的一些技术细节,比如自注意力的高效计算和更长上下文。同时,MoE结构也在更小尺度的Mistral(一家欧洲AI初创公司)模型上证明了价值。

第二,人类反馈技术的提升如从RLHF(人类反馈强化学习)到DPO(直接偏好优化),让大模型应用更容易形成数据飞轮,即在应用场景里面,跟模型互动产生的更多数据飞轮,能把模型能力进行不断迭代提升。

第三,多模态慢慢会变成主流,尽管自然语言对理解世界而言是最重要的,但跟人类的互动,多模态的生成也非常重要,因为人类是一个视觉动物,更愿意看视频图片,所以这会给“动画”带来非常好的发展。

但从中国跟国际的对比来看,我认为技术的差距没有缩小。这一年内我们的大模型大部分还是在GPT-3到3.5之间,或者说大家的能力在Llama2(Meta AI开源大模型)上下有一个小小的方差,没有一家模型能接近GPT-4。我认为中国最核心的技术优势或者说突破口还是在应用上。

现在,行业里大模型的投入大部分都花在了GPU、云算力中心,以及未来可能会花在手机等端侧,这些投入都离不开创新应用的出现,否则没有人会为这些持续投入买单,这是一个行业需要回答的问题。而中国是最容易找到应用的,这是我们的优势。

另一方面,我觉得国内还是存在一定程度的人才密度不足以及资源分散等问题。

国内很多公司有段时间会在各种榜单上去刷(大模型排名),最近好像少了,实际上很多模型本身没有大的不同。而这些模型要刷出来,就需要消耗大量算力,而我们本来算力就紧缺。

所以,我们要以终为始想清楚,我的模型有什么不一样,不一样的点值不值得去做,而不是去做一个me too的东西。

我观察到有一个差别在于,美国的创新思维里认为没有失败,只是还没有成功,特别是在创业和技术的探索过程中。比如开学术会议的时候,永远会有人说虽然实验结果还不够好,但我有一个完全不一样的想法,这个工作不仅仅是在热点研究基础上做一个delta(增量)。在顶尖的学术会议上,即使是学术上已功成名就的人也就是背着个双肩包,跟大家一样看poster(学术海报)、问问题和交流。年轻人和学生也可以去跟他说,我一个有想法可能比你最有名的工作更好。

科创企业也是如此,你做的事情和方向跟别人不一样,这本身就是探索的价值。如果你能成功,很好,如果暂时没有成功,这些探索的价值可以等到以后被放大。反倒一件完全me too的事情,定义出价值很难。

人才密度上,我感觉很多情况下大家都在追求均值,不追求方差。即一个东西热,大家都更愿意集中在大家集体感知到的高斯分布的均值附近,而2~3个方差之外我们看不到人和投入。我认为这导致了目前一定程度上算力以及人才的浪费。因为未来一旦大家集体感知的高斯分布发生了漂移,比如新的技术和突破发生在了别处,我们又会面临集体缺席的窘境。

因此,在2024年,算力的紧缺依然会延续;高质量数据的重要性会愈发提高,因此也会面临紧缺问题;跟人的互动多模态也是未来发展的重要方向,因为硅基跟碳基融合需要多模态的生成,这方面会产生更多的工作。

此外,还有一个我自己的预测,我认为“对齐”会越来越重要。所谓对齐就是把人的偏好、判断、专业性、价值观等传递给大模型,这是大模型技术能够给人类带来福祉非常重要的一环。如何去完成人跟一个越来越强大的智能体的对齐,本身就是一个非常值得研究的方向。因为随着GPT-4、5的发展,这些模型越来越强,去“对齐”这些模型,需要的能力和算法、算力都会越来越多。

之所以提到未来的算力会越来越紧张,因为目前训练GPT-4或者3.5,90%的算力会用在预训练上,约10%的算力则用在“对齐”上。但这一现状在未来可能会发生大的逆转。随着底座模型能力的提升,预训练虽然从绝对算力的要求上一定会快速提升,但从占比来说可能只占总体训练的一半甚至更少,而大部分的算力从占比角度都要用在和超级智能的“对齐”上。就像养孩子,baby的时候家长花很多时间关心他吃什么穿什么,但长大之后家长会很少花时间在他吃穿上,但需要花更多精力跟他“对齐”,也就是发掘和培育孩子的潜能、理解、引导他的世界观、价值观等。

这个情况下,一方面预训练的数据量和跨模态需求还在提升,另一方面“对齐”需要的算力占比会更多,GPU还是会更紧缺。如果商业模式不能确立,这也是投入大模型后期会越来越难的重要原因。

值得一提的是,算力紧缺是一个全球性的问题,由于供给关系与地缘政治等多方面因素影响,短期内非常难以解决。

目前我们能做的,首先从算力的使用架构上,我认为还有很多优化空间,从技术角度去降低一部分对算力的需求,但这一趋势是无法逆转的;第二就是供求关系上,如果能在全球优化可能效果会更好;第三就是在大模型的建设上减少重复,减少me too带来的算力浪费,把更多算力投入在“不一样”的有差异化的路径上。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy